Visual Question Answering

Emerging

6papers using it

2024first seen

Visual Question Answering (VQA) is a benchmark that evaluates the ability of models to answer questions about images, using both multiple-choice and caption-based tasks.

🔎 Find this dataset

Papers using Visual Question Answering (6)

Cross-Modal Attention Guided Unlearning in Vision-Language Models2025

Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs2025

Towards Resource-efficient Multimodal Intelligence: Learned Routing Among Specialized Expert Models2025

Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs2025

Uncertainty-Aware Evaluation for Vision-Language Models2024 · 2 cites

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM2024