← all datasets

Visual Genome

Canonical

16papers using it

2018first seen

Images densely annotated with objects, attributes, relationships, region descriptions, and QA.

🔎 Find this dataset

Papers using Visual Genome (16)

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks2025 · 1 cites

Good Scores, Bad Data: A Metric for Multimodal Coherence2026

Investigating Spatial Attention Bias in Vision-Language Models2025

Multimodal Arabic Captioning With Interpretable Visual Concept Integration2025

Dynamic Context-aware Scene Reasoning Using Vision-language Alignment In Zero-shot Real-world Scenarios2025

Compositional Image-Text Matching and Retrieval by Grounding Entities2025

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers2020 · 286 cites

UNITER: UNiversal Image-TExt Representation Learning2019 · 185 cites

Efficient Multi-Modal Embeddings from Structured Data2021 · 1 cites

HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language2023

DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models2024

Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models2024

Learning Unsupervised Visual Grounding Through Semantic Self-Supervision2018

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering2018

ViCo: Word Embeddings from Visual Co-occurrences2019

Text-Region Matching for Multi-Label Image Recognition with Missing Labels2024

Visual Genome dataset — papers, benchmarks & downloads · Multimodal