MS COCO

Emerging

41papers using it

2023first seen

MS-COCO is a large-scale dataset that contains images and their corresponding captions, used to evaluate models in tasks such as image captioning and cross-modal retrieval.

🔎 Find this dataset

Papers using MS COCO (41)

Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning2026

Smartclip: Modular Vision-language Alignment With Identification Guarantees2025 · 2 cites

Robust Multimodal Learning Via Entropy-gated Contrastive Fusion2025 · 1 cites

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models2026

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data2026

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models2026

GoldiCLIP: The Goldilocks Approach for Balancing Explicit Supervision for Language-Image Pretraining2026

ORIC: Benchmarking Object Recognition Under Contextual Incongruity In Large Vision-language Models2025

SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment2025

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling2025

Language-Guided Invariance Probing of Vision-Language Models2025

Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models2025

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions2025

Concept Regions Matter: Benchmarking CLIP With A New Cluster-importance Approach2025

Coco-urdu: A Large-scale Urdu Image-caption Dataset With Multimodal Quality Estimation2025

Spec-llava: Accelerating Vision-language Models With Dynamic Tree-based Speculative Decoding2025

From Pixels And Words To Waves: A Unified Framework For Spectral Dictionary Vllms2025

Leveraging Vision-language Pre-training For Human Activity Recognition In Still Images2025

Mining Contextualized Visual Associations From Images For Creativity Understanding2025

A Good CREPE Needs More Than Just Sugar: Investigating Biases In Compositional Vision-language Benchmarks2025

One Object, Multiple Lies: A Benchmark For Cross-task Adversarial Attack On Unified Vision-language Models2025

Compositional Image-Text Matching and Retrieval by Grounding Entities2025

Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation2025

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation2025

Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation2025

CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization2025

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning2023 · 27 cites

COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs2023 · 5 cites

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning2024 · 1 cites

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition2024 · 1 cites

RAVEN: Multitask Retrieval Augmented Vision-Language Learning2024 · 1 cites

Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models2024 · 1 cites

Linear Alignment of Vision-language Models for Image Captioning2023

Generative Visual Question Answering2023

Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association2023

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models2023

CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer2023

VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model2024

Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models2024

Nearest Neighbor Normalization Improves Multimodal Retrieval2024

Text-Region Matching for Multi-Label Image Recognition with Missing Labels2024