Visual Question Answering (VQA)

Emerging

17papers using it

2019first seen

Visual Question Answering (VQA) is a benchmark that evaluates the ability of models to answer questions about images, integrating visual and textual understanding.

🔎 Find this dataset

Papers using Visual Question Answering (VQA) (17)

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding2026

Cross-Modal Attention Guided Unlearning in Vision-Language Models2025

Do LVLMs Know What They Know? A Systematic Study of Knowledge Boundary Perception in LVLMs2025

Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning2025

Towards Resource-efficient Multimodal Intelligence: Learned Routing Among Specialized Expert Models2025

Do Large Vision-language Models Distinguish Between The Actual And Apparent Features Of Illusions?2025

Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs2025

Large-Scale Adversarial Training for Vision-and-Language Representation Learning2020 · 287 cites

How Much Can CLIP Benefit Vision-and-Language Tasks?2021 · 153 cites

Cross-Modality Relevance for Reasoning on Language and Vision2020 · 33 cites

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks2022 · 19 cites

Large Language Models are Visual Reasoning Coordinators2023 · 14 cites

Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks2022 · 8 cites

Uncertainty-Aware Evaluation for Vision-Language Models2024 · 2 cites

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline2019 · 1 cites

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language2023 · 1 cites

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM2024