MARVEL: Multimodal Adaptive Reasoning-intensive Expand-rerank And Retrieval

Abstract

Multimodal retrieval over text corpora remains a fundamental challenge: the best vision-language encoder achieves only 27.6 nDCG@10 on MM-BRIGHT, a reasoning-intensive multimodal retrieval benchmark, underperforming strong text-only systems. We argue that effective multimodal retrieval requires three tightly integrated capabilities that existing approaches address only in isolation: expanding the query's latent intent, retrieving with a model trained for complex reasoning, and reranking via explicit step-by-step reasoning over candidates. We introduce \textbf\{MARVEL\} (\textbf\{M\}ultimodal \textbf\{A\}daptive \textbf\{R\}easoning-intensi\textbf\{V\}e \textbf\{E\}xpand-rerank and retrieva\textbf\{L\}), a unified pipeline that combines LLM-driven query expansion, \textbf\{MARVEL-Retriever\} -- a reasoning-enhanced dense retriever fine-tuned for complex multimodal queries -- and GPT-4o-based chain-of-thought reranking with optional multi-pass reciprocal rank fusion. Evaluated on MM-BRIG

MARVEL: Multimodal Adaptive Reasoning-intensive Expand-rerank And Retrieval

Abstract

Authors

Tags

Stats

Related papers