visual question answering (VQA) datasets

Emerging

13papers using it

2022first seen

Visual question answering (VQA) datasets contain images paired with questions and answers, and they are used to evaluate the capabilities of models in understanding and reasoning about visual content in relation to textual queries.

🔎 Find this dataset

Papers using visual question answering (VQA) datasets (13)

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding2026

Cross-Modal Attention Guided Unlearning in Vision-Language Models2025

Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs2025

Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning2025

Towards Resource-efficient Multimodal Intelligence: Learned Routing Among Specialized Expert Models2025

Do Large Vision-language Models Distinguish Between The Actual And Apparent Features Of Illusions?2025

Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs2025

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks2022 · 19 cites

Large Language Models are Visual Reasoning Coordinators2023 · 14 cites

Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks2022 · 8 cites

Uncertainty-Aware Evaluation for Vision-Language Models2024 · 2 cites

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language2023 · 1 cites

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM2024