← all datasets

OK-VQA

Canonical

34papers using it

2021first seen

OK-VQA is a new dataset for visual question answering that requires methods which can draw upon outside knowledge to answer questions. - 14,055 open-ended questions - 5 ground truth answers per question - Manually filtered to ensure all questions require outside knowledge (e.g. from Wikipeida) - Reduced questions with

🔎 Find this dataset

Papers using OK-VQA (34)

Hyper-ICL: Attention Calibration with Hyperbolic Anchor Distillation for Multimodal In-Context Learning2026

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering2025 · 1 cites

Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation2026

Hierarchical Pre-Training of Vision Encoders with Large Language Models2026

When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs2026

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering2026

From Hindsight to Foresight: Self-Encouraged Hindsight Distillation for Knowledge-based Visual Question Answering2025

Explanation-driven Counterfactual Testing For Faithfulness In Vision-language Model Explanations2025

Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering2025

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs2025

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering2025

See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering2025

Cross Domain Evaluation Of Multimodal Chain-of-thought Reasoning Of Different Datasets Into The Amazon Cot Framework2025

FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA2025

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering2022 · 116 cites

REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering2022 · 44 cites

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering2023 · 20 cites

A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering2023 · 20 cites

Multi-Modal Answer Validation for Knowledge-Based VQA2021 · 16 cites

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge2023 · 11 cites

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering2023 · 9 cites

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks2024 · 4 cites

How to Configure Good In-Context Sequence for Visual Question Answering2023 · 3 cites

Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge2021 · 2 cites

Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base2022 · 2 cites

VLIS: Unimodal Language Models Guide Multimodal Language Generation2023 · 2 cites

Knowledge Condensation and Reasoning for Knowledge-based VQA2024 · 2 cites

Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection2021 · 1 cites

LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection2022 · 1 cites

Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering2024 · 1 cites

Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering2021

A Simple Baseline for Knowledge-Based Visual Question Answering2023

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?2023

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering2024

OK-VQA dataset — papers, benchmarks & downloads · Multimodal