← all datasets

Flickr30k

Canonical

54papers using it

2018first seen

""" _HOMEPAGE = "https://shannon.cs.illinois.edu/DenotationGraph/" # TODO: Victor _LICENSE = "" _ANNOTATION_URL = "http://cs.stanford.edu/people/karpathy/deepimagesent/caption_datasets.zip" _FEATURES = datasets.Features( { "image": datasets.Image(), "filename": datasets.Value("string"), "imgid": datasets.Value("int32")

🔎 Find this dataset

Papers using Flickr30k (53)

Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning2026

CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval2022 · 27 cites

CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization2025 · 3 cites

Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions2025 · 1 cites

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation2025 · 1 cites

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data2026

LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification2026

CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks2025

Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models2025

SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment2025

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling2025

A Little More Like This: Text-to-Image Retrieval with Vision-Language Models Using Relevance Feedback2025

Extracting Multimodal Learngene in CLIP: Unveiling the Multimodal Generalizable Knowledge2025

Rate-distortion Limits For Multimodal Retrieval: Theory, Optimal Codes, And Finite-sample Guarantees2025

Robust Vision-language Models Via Tensor Decomposition: A Defense Against Adversarial Attacks2025

Compositional Image-Text Matching and Retrieval by Grounding Entities2025

Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation2025

VisualBERT: A Simple and Performant Baseline for Vision and Language2019 · 1,236 cites

Visual Entailment: A Novel Task for Fine-Grained Image Understanding2019 · 162 cites

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data2020 · 156 cites

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks2022 · 151 cites

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities2023 · 42 cites

Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators2019 · 33 cites

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval2019 · 31 cites

Cross-Modal Adapter for Vision-Language Retrieval2022 · 17 cites

Saliency-Guided Attention Network for Image-Sentence Matching2019 · 16 cites

Visual Entailment Task for Visually-Grounded Language Learning2018 · 13 cites

A Frustratingly Simple Approach for End-to-End Image Captioning2022 · 12 cites

Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval2019 · 11 cites

Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning2023 · 9 cites

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval2021 · 6 cites

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment2022 · 5 cites

Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching2021 · 3 cites

Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders2020 · 2 cites

MixGen: A New Multi-Modal Data Augmentation2022 · 2 cites

CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance2024 · 2 cites

More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching2021 · 1 cites

Constructing Phrase-level Semantic Labels to Form Multi-Grained Supervision for Image-Text Retrieval2021 · 1 cites

VLDeformer: Vision-Language Decomposed Transformer for Fast Cross-Modal Retrieval2021 · 1 cites

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations2022 · 1 cites

Plug-and-Play Regulators for Image-Text Matching2023 · 1 cites

Intra-Modal Constraint Loss For Image-Text Retrieval2022

MuMUR : Multilingual Multimodal Universal Retrieval2022

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision2022

Cross-Modal Similarity-Based Curriculum Learning for Image Captioning2022

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval2023

Linear Alignment of Vision-language Models for Image Captioning2023

Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association2023

Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models2024

Nearest Neighbor Normalization Improves Multimodal Retrieval2024

Learning Unsupervised Visual Grounding Through Semantic Self-Supervision2018

Learnable Pillar-based Re-ranking for Image-Text Retrieval2023

Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment2023

Flickr30k dataset — papers, benchmarks & downloads · Multimodal