VQA

Canonical

90papers using it

2016first seen

Visual Question Answering — open-ended questions about images requiring joint vision and language understanding.

🔎 Find this dataset

Papers using VQA (89)

Seeing Before Agreeing: Aligning Multi-Agent Consensus with Visual Evidence2026

Multimodal Integration of Human-Like Attention in Visual Question Answering2021 · 4 cites

Hyper-ICL: Attention Calibration with Hyperbolic Anchor Distillation for Multimodal In-Context Learning2026

Visual Semantic Entropy: Do Vision Language Models Recognize Visual Ambiguity?2026

Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis2025 · 3 cites

Latent Noise Mask for Reducing Visual Redundancy in Multimodal Large Language Models2026

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering2025 · 1 cites

Investigating Adversarial Robustness of Multi-modal Large Language Models2026

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion2026

EnsemHalDet: Robust VLM Hallucination Detection via Ensemble of Internal State Detectors2026

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning2026

DOSE: Data Selection for Multi-Modal LLMs via Off-the-Shelf Models2026

RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding2026

Instruction-Evidence Contrastive Dual-Stream Decoding for Grounded Vision-Language Reasoning2026

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models2026

LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models2026

Parallel In-context Learning for Large Vision Language Models2026

Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles2026

N\"uwa: Mending the Spatial Integrity Torn by VLM Token Pruning2026

VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering2026

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models2026

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs2026

HybridToken-VLM: Hybrid Token Compression for Vision-Language Models2025

Efficient Vision-Language Reasoning via Adaptive Token Pruning2025

OMEGA: Optimized Multimodal Position Encoding Index Derivation with Global Adaptive Scaling for Vision-Language Models2025

Draft and Refine with Visual Experts2025

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling2025

Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering2025

V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models2025

AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors2025

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering2025

INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling2025

Investigating Redundancy In Multimodal Large Language Models With Multiple Vision Encoders2025

PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs2025

Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding2025

VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization2025

Optmerge: Unifying Multimodal LLM Capabilities And Modalities Via Model Merging2025

Elevating Visual Question Answering through Implicitly Learned Reasoning Pathways in LVLMs2025

Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection2025

Ask and Remember: A Questions-Only Replay Strategy for Continual Visual Question Answering2025

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding2023 · 2 cites

VisualBERT: A Simple and Performant Baseline for Vision and Language2019 · 1,236 cites

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models2023 · 920 cites

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision2021 · 343 cites

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts2021 · 288 cites

LXMERT: Learning Cross-Modality Encoder Representations from Transformers2019 · 223 cites

Hadamard Product for Low-rank Bilinear Pooling2016 · 180 cites

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks2022 · 151 cites

Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering2017 · 102 cites

Deep Modular Co-Attention Networks for Visual Question Answering2019 · 99 cites

Generating Question Relevant Captions to Aid Visual Question Answering2019 · 49 cites

Multimodal Unified Attention Networks for Vision-and-Language Interactions2019 · 34 cites

MMBench: Is Your Multi-modal Model an All-around Player?2023 · 33 cites

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering2023 · 20 cites

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering2017 · 18 cites

MGA-VQA: Multi-Granularity Alignment for Visual Question Answering2022 · 10 cites

Reciprocal Attention Fusion for Visual Question Answering2018 · 9 cites

Multimodal Graph Transformer for Multimodal Question Answering2023 · 7 cites

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training2022 · 6 cites

Answer Questions with Right Image Regions: A Visual Attention Regularization Approach2021 · 5 cites

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation2022 · 4 cites

BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning2022 · 3 cites

How to Configure Good In-Context Sequence for Visual Question Answering2023 · 3 cites

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering2018 · 2 cites

Mitigating Dialogue Hallucination for Large Vision Language Models via Adversarial Instruction Tuning2024 · 2 cites

Visual Question Answering based on Local-Scene-Aware Referring Expression Generation2021 · 1 cites

Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment2022 · 1 cites

Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems2022 · 1 cites

Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models2023 · 1 cites

LXMERT Model Compression for Visual Question Answering2023 · 1 cites

Barlow constrained optimization for Visual Question Answering2022

EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning2022

Training Vision-Language Models with Less Bimodal Supervision2022

eP-ALM: Efficient Perceptual Augmentation of Language Models2023

Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime2023

Generative Visual Question Answering2023

Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models2023

Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs2023

Improving Vision-and-Language Reasoning via Spatial Relations Modeling2023

VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models2024

Multi-Modal Hallucination Control by Visual Information Grounding2024

Selectively Answering Visual Questions2024

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy2024

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale2024

Optimizing Vision-Language Interactions Through Decoder-Only Models2024

Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes2024

Question-Agnostic Attention for Visual Question Answering2019

Linguistically-aware Attention for Reducing the Semantic-Gap in Vision-Language Tasks2020

An Improved Attention for Visual Question Answering2020