MSCOCO

Emerging

57papers using it

2022first seen

MSCOCO is a dataset that contains images paired with descriptive captions, used to evaluate multimodal image-text retrieval and understanding tasks.

🔎 Find this dataset

Papers using MSCOCO (57)

Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning2026

CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval2022 · 27 cites

Smartclip: Modular Vision-language Alignment With Identification Guarantees2025 · 2 cites

Robust Multimodal Learning Via Entropy-gated Contrastive Fusion2025 · 1 cites

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models2026

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data2026

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models2026

GoldiCLIP: The Goldilocks Approach for Balancing Explicit Supervision for Language-Image Pretraining2026

ORIC: Benchmarking Object Recognition Under Contextual Incongruity In Large Vision-language Models2025

SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment2025

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling2025

Language-Guided Invariance Probing of Vision-Language Models2025

Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models2025

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions2025

Concept Regions Matter: Benchmarking CLIP With A New Cluster-importance Approach2025

Coco-urdu: A Large-scale Urdu Image-caption Dataset With Multimodal Quality Estimation2025

Spec-llava: Accelerating Vision-language Models With Dynamic Tree-based Speculative Decoding2025

From Pixels And Words To Waves: A Unified Framework For Spectral Dictionary Vllms2025

Leveraging Vision-language Pre-training For Human Activity Recognition In Still Images2025

Mining Contextualized Visual Associations From Images For Creativity Understanding2025

A Good CREPE Needs More Than Just Sugar: Investigating Biases In Compositional Vision-language Benchmarks2025

One Object, Multiple Lies: A Benchmark For Cross-task Adversarial Attack On Unified Vision-language Models2025

Compositional Image-Text Matching and Retrieval by Grounding Entities2025

Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation2025

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation2025

Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation2025

CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization2025

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities2023 · 42 cites

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning2023 · 27 cites

Cross-Modal Adapter for Vision-Language Retrieval2022 · 17 cites

A Frustratingly Simple Approach for End-to-End Image Captioning2022 · 12 cites

Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark2023 · 7 cites

Uncurated Image-Text Datasets: Shedding Light on Demographic Bias2023 · 6 cites

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment2022 · 5 cites

COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs2023 · 5 cites

Multimodal Data Augmentation for Image Captioning using Diffusion Models2023 · 3 cites

Multi-Modal Few-Shot Temporal Action Detection2022 · 1 cites

Plug-and-Play Regulators for Image-Text Matching2023 · 1 cites

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations2023 · 1 cites

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning2024 · 1 cites

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition2024 · 1 cites

RAVEN: Multitask Retrieval Augmented Vision-Language Learning2024 · 1 cites

Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models2024 · 1 cites

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval2022

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision2022

Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning2023

MAGVLT: Masked Generative Vision-and-Language Transformer2023

Linear Alignment of Vision-language Models for Image Captioning2023

Generative Visual Question Answering2023

Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association2023

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models2023

CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer2023

VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model2024

Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models2024

Nearest Neighbor Normalization Improves Multimodal Retrieval2024

Learnable Pillar-based Re-ranking for Image-Text Retrieval2023

Text-Region Matching for Multi-Label Image Recognition with Missing Labels2024