Awesome Papers

Papers

Probabilistic Embeddings For Cross-modal Retrieval (2021)
Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio de Rezende, et al.
21.70
A New Benchmark And Approach For Fine-grained Cross-media Retrieval (2019)
Xiangteng He, Yuxin Peng, Liu Xie
17.33
Modality-specific Cross-modal Similarity Measurement With Recurrent Attention Network (2017)
Yuxin Peng, Jinwei Qi, Yuxin Yuan
16.23
Crossclr: Cross-modal Contrastive Learning For Multi-modal Video Representations (2021)
Mohammadreza Zolfaghari, Yi Zhu, Peter Gehler, et al.
15.59
Look Before You Leap: Improving Text-based Person Retrieval By Learning A Consistent Cross-modal Common Manifold (2022)
Zijie Wang, Aichun Zhu, Jingyi Xue, et al.
15.34
MHTN: Modal-adversarial Hybrid Transfer Network For Cross-modal Retrieval (2017)
Xin Huang, Yuxin Peng, Mingkuan Yuan
15.13
Generalized Multi-view Embedding For Visual Recognition And Cross-modal Retrieval (2016)
Guanqun Cao, Alexandros Iosifidis, Ke Chen, et al.
14.69
Murag: Multimodal Retrieval-augmented Generator For Open Question Answering Over Images And Text (2022)
Wenhu Chen, Hexiang Hu, Xi Chen, et al.
14.66
Visualsem: A High-quality Knowledge Graph For Vision And Language (2020)
Houda Alberts, Teresa Huang, Yash Deshpande, et al.
14.39
Cross Modal Retrieval With Querybank Normalisation (2021)
Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, et al.
14.06
Simple To Complex Cross-modal Learning To Rank (2017)
Minnan Luo, Xiaojun Chang, Zhihui Li, et al.
13.84
Learning To Rematch Mismatched Pairs For Robust Cross-modal Retrieval (2024)
Haochen Han, Qinghua Zheng, Guang Dai, et al.
13.82
Probabilistic Compositional Embeddings For Multimodal Image Retrieval (2022)
Andrei Neculai, Yanbei Chen, Zeynep Akata
13.80
CODER: Coupled Diversity-sensitive Momentum Contrastive Learning For Image-text Retrieval (2022)
Haoran Wang, Dongliang He, Wenhao Wu, et al.
13.72
REVEAL: Retrieval-augmented Visual-language Pre-training With Multi-source Multimodal Knowledge Memory (2022)
Ziniu Hu, Ahmet Iscen, Chen Sun, et al.
13.65
Improving Cross-modal Retrieval With Set Of Diverse Embeddings (2022)
Dongwon Kim, Namyup Kim, Suha Kwak
13.55
A Study On The Interpretability Of Neural Retrieval Models Using Deepshap (2019)
Zeon Trevor Fernando, Jaspreet Singh, Avishek Anand
13.44
Probvlm: Probabilistic Adapter For Frozen Vision-language Models (2023)
Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, et al.
13.41
Twitter100k: A Real-world Dataset For Weakly Supervised Cross-media Retrieval (2017)
Yuting Hu, Liang Zheng, Yi Yang, et al.
13.34
Type4py: Practical Deep Similarity Learning-based Type Inference For Python (2021)
Amir M. Mir, Evaldas Latoskinas, Sebastian Proksch, et al.
13.34
Single-branch Network For Multimodal Training (2023)
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, et al.
13.26
Joint Representation Learning And Novel Category Discovery On Single- And Multi-modal Data (2021)
Xuhui Jia, Kai Han, Yukun Zhu, et al.
13.11
Cross-modal Retrieval: A Systematic Review Of Methods And Future Directions (2023)
Tianshi Wang, Fengling Li, Lei Zhu, et al.
12.81
Product1m: Towards Weakly Supervised Instance-level Product Retrieval Via Cross-modal Pretraining (2021)
Xunlin Zhan, Yangxin Wu, Xiao Dong, et al.
12.61
The Design And Implementation Of A Real Time Visual Search System On JD E-commerce Platform (2019)
Jie Li, Haifeng Liu, Chuanghua Gui, et al.
12.25
Leveraging Visual Question Answering For Image-caption Ranking (2016)
Xiao Lin, Devi Parikh
12.10
A Deep Learning Pipeline For Product Recognition On Store Shelves (2018)
Alessio Tonioni, Eugenio Serra, Luigi di Stefano
11.85
Modeling Text With Graph Convolutional Network For Cross-modal Information Retrieval (2018)
Jing Yu, Yuhang Lu, Zengchang Qin, et al.
11.85
Multimodal Needle In A Haystack: Benchmarking Long-context Capability Of Multimodal Large Language Models (2024)
Hengyi Wang, Haizhou Shi, Shiwei Tan, et al.
11.84
Dynamic Contrastive Distillation For Image-text Retrieval (2022)
Jun Rao, Liang Ding, Shuhan Qi, et al.
11.76
Ask&confirm: Active Detail Enriching For Cross-modal Retrieval With Partial Query (2021)
Guanyu Cai, Jun Zhang, Xinyang Jiang, et al.
11.68
Noisy Correspondence Learning With Meta Similarity Correction (2023)
Haochen Han, Kaiyao Miao, Qinghua Zheng, et al.
11.67
ICDAR 2019 Competition On Image Retrieval For Historical Handwritten Documents (2019)
Vincent Christlein, Anguelos Nicolaou, Mathias Seuret, et al.
11.29
Semi-supervised Cross-modal Retrieval With Label Prediction (2018)
Devraj Mandal, Pramod Rao, Soma Biswas
11.29
RAMM: Retrieval-augmented Biomedical Visual Question Answering With Multi-modal Pre-training (2023)
Zheng Yuan, Qiao Jin, Chuanqi Tan, et al.
11.19
Supervised Contrastive Learning For Product Matching (2022)
Ralph Peeters, Christian Bizer
11.08
Integrating Information Theory And Adversarial Learning For Cross-modal Retrieval (2021)
Wei Chen, Yu Liu, Erwin M. Bakker, et al.
10.97
Lexlip: Lexicon-bottlenecked Language-image Pre-training For Large-scale Image-text Retrieval (2023)
Ziyang Luo, Pu Zhao, Can Xu, et al.
10.85
Learning A Unified Embedding For Visual Search At Pinterest (2019)
Andrew Zhai, Hao-Yu Wu, Eric Tzeng, et al.
10.85
Multimodal Neural Databases (2023)
Giovanni Trappolini, Andrea Santilli, Emanuele Rodolà, et al.
10.74
Uniir: Training And Benchmarking Universal Multimodal Information Retrievers (2023)
Cong Wei, Yang Chen, Haonan Chen, et al.
10.48
Interactive Text-to-image Retrieval With Large Language Models: A Plug-and-play Approach (2024)
Saehyung Lee, Sangwon Yu, Junsung Park, et al.
10.24
Learning Shared Semantic Space With Correlation Alignment For Cross-modal Event Retrieval (2019)
Zhenguo Yang, Zehang Lin, Peipei Kang, et al.
10.21
Telling The What While Pointing To The Where: Multimodal Queries For Image Retrieval (2021)
Soravit Changpinyo, Jordi Pont-Tuset, Vittorio Ferrari, et al.
10.07
Enhancing Patent Retrieval Using Text And Knowledge Graph Embeddings: A Technical Note (2022)
L Siddharth, Guangtong Li, Jianxi Luo
10.07
Preserving Semantic Neighborhoods For Robust Cross-modal Retrieval (2020)
Christopher Thomas, Adriana Kovashka
10.07
Learnable Pillar-based Re-ranking For Image-text Retrieval (2023)
Leigang Qu, Meng Liu, Wenjie Wang, et al.
9.92
A Symmetric Dual Encoding Dense Retrieval Framework For Knowledge-intensive Visual Question Answering (2023)
Alireza Salemi, Juan Altmayer Pizzorno, Hamed Zamani
9.92
Photochat: A Human-human Dialogue Dataset With Photo Sharing Behavior For Joint Image-text Modeling (2021)
Xiaoxue Zang, Lijuan Liu, Maria Wang, et al.
9.92
Cross-media Similarity Evaluation For Web Image Retrieval In The Wild (2017)
Jianfeng Dong, Xirong Li, Duanqing Xu
9.59