A-OKVQA

Emerging

20papers using it

2022first seen

A-OKVQA is a reasoning dataset used to evaluate the visual reasoning capabilities of vision-language models (VLMs) through complex question-answering tasks.

🔎 Find this dataset

Papers using A-OKVQA (20)

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning2026

Vision Verification Enhanced Fusion of VLMs for Efficient Visual Reasoning2026

LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models2026

From Hindsight to Foresight: Self-Encouraged Hindsight Distillation for Knowledge-based Visual Question Answering2025

Context-Aware Multi-Turn Visual-Textual Reasoning in LVLMs via Dynamic Memory and Adaptive Visual Guidance2025

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering2025

Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models2025

Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding2025

See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering2025

NLKI: A Lightweight Natural Language Knowledge Integration Framework For Improving Small Vlms In Commonsense VQA Tasks2025

Believing Without Seeing: Quality Scores For Contextualizing Vision-language Model Explanations2025

Cross Domain Evaluation Of Multimodal Chain-of-thought Reasoning Of Different Datasets Into The Amazon Cot Framework2025

Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios2025

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge2022 · 215 cites

Multimodal Chain-of-Thought Reasoning in Language Models2023 · 100 cites

Knowledge Condensation and Reasoning for Knowledge-based VQA2024 · 2 cites

Zero-shot Visual Question Answering with Language Model Feedback2023 · 1 cites

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering2024 · 1 cites

A Simple Baseline for Knowledge-Based Visual Question Answering2023

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning2024