← all datasets

GQA

Canonical

42papers using it

2019first seen

A compositional visual-question-answering benchmark generated from Visual Genome scene graphs.

🔎 Find this dataset

Papers using GQA (42)

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation2026

Hierarchical Pre-Training of Vision Encoders with Large Language Models2026

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning2026

Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles2026

VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering2026

How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning2026

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs2026

HybridToken-VLM: Hybrid Token Compression for Vision-Language Models2025

Efficient Vision-Language Reasoning via Adaptive Token Pruning2025

MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering2025

MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models2025

Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding2025

ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way2025

ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM2025

Constructive Distortion: Improving Mllms With Attention-guided Image Warping2025

Test-time Warmup For Multimodal Large Language Models2025

Multi-Sourced Compositional Generalization in Visual Question Answering2025

LXMERT: Learning Cross-Modality Encoder Representations from Transformers2019 · 223 cites

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering2023 · 20 cites

Weakly Supervised Relative Spatial Reasoning for Visual Question Answering2021 · 17 cites

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering2022 · 16 cites

MGA-VQA: Multi-Granularity Alignment for Visual Question Answering2022 · 10 cites

Multimodal Graph Transformer for Multimodal Question Answering2023 · 7 cites

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training2022 · 6 cites

Declaration-based Prompt Tuning for Visual Question Answering2022 · 5 cites

REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering2020 · 4 cites

Efficient Large Multi-modal Models via Visual Context Compression2024 · 4 cites

Weakly Supervised Grounding for VQA in Vision-Language Transformers2022 · 3 cites

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding2021 · 2 cites

Compound Tokens: Channel Fusion for Vision-Language Representation Learning2022 · 2 cites

Curriculum Learning for Compositional Visual Reasoning2023 · 2 cites

Attention Guided Semantic Relationship Parsing for Visual Question Answering2020 · 1 cites

Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems2022 · 1 cites

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering2024 · 1 cites

xGQA: Cross-Lingual Visual Question Answering2021

Training Vision-Language Models with Less Bimodal Supervision2022

Modular Visual Question Answering via Code Generation2023

Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models2023

LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering2024

SADL: An Effective In-Context Learning Method for Compositional Visual QA2024

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy2024

Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes2024

GQA dataset — papers, benchmarks & downloads · Multimodal