AOKVQA

Emerging

19papers using it

2022first seen

AOKVQA is a dataset used to evaluate commonsense visual-question answering by providing questions that require external knowledge not present in the images or questions themselves.

🔎 Find this dataset

Papers using AOKVQA (19)

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning2026

Vision Verification Enhanced Fusion of VLMs for Efficient Visual Reasoning2026

From Hindsight to Foresight: Self-Encouraged Hindsight Distillation for Knowledge-based Visual Question Answering2025

Context-Aware Multi-Turn Visual-Textual Reasoning in LVLMs via Dynamic Memory and Adaptive Visual Guidance2025

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering2025

Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models2025

Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding2025

See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering2025

NLKI: A Lightweight Natural Language Knowledge Integration Framework For Improving Small Vlms In Commonsense VQA Tasks2025

Believing Without Seeing: Quality Scores For Contextualizing Vision-language Model Explanations2025

Cross Domain Evaluation Of Multimodal Chain-of-thought Reasoning Of Different Datasets Into The Amazon Cot Framework2025

Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios2025

Multimodal Chain-of-Thought Reasoning in Language Models2023 · 98 cites

Knowledge Condensation and Reasoning for Knowledge-based VQA2024 · 2 cites

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge2022 · 1 cites

Zero-shot Visual Question Answering with Language Model Feedback2023 · 1 cites

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering2024 · 1 cites

A Simple Baseline for Knowledge-Based Visual Question Answering2023

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning2024