← all datasets

COCO

Canonical

111papers using it

28,119HF downloads

82HF likes

2016first seen

Common Objects in Context — 330k images with object-detection, segmentation, keypoint, and captioning annotations.

🤗 Hugging Face

Papers using COCO (111)

Do All Visual Tokens Matter Equally? Object-Evidence Preserving Token Merging for Vision-Language Retrieval2026

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation2022 · 63 cites

HSA: Hierarchical Slot Attention for Multi-granularity Scene-Decomposition2026

Rethinking Depth Pruning for Vision Transformers: A Heterogeneity-Aware Perspective2026

FRFDet: Efficient UAV Small Object Detection with Symmetric Sampling and Scalable Fusion2026

Repurposing CLIP to Localize at Pixel Level2026

Confidence Scores in Open-Vocabulary Detection Are a Biased Mixture of Scale and Semantics2026

Slot-RAE: Streamlining Object-Centric Learning via Direct Representation Auto-Encoders2026

Inhibited Self-Attention: Sharpening Focus in Vision Transformers2026

Practical Insights into Semi-Supervised Object Detection Approaches2026

Completely Weakly Supervised Class-Incremental Learning for Semantic Segmentation2025 · 1 cites

LINEA: Fast and Accurate Line Detection Using Scalable Transformers2025 · 1 cites

Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection2025 · 1 cites

YOLOv4: A Breakthrough in Real-Time Object Detection2025 · 1 cites

Unveiling the Unknown: Open Vocabulary Object Detection with Scene Graphs2026

Training-Free Metrics for Synthetic Object Detection Data: A Proxy for Detector Performance2026

A Turbo-Inference Strategy for Object Detection and Instance Segmentation2026

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers2026

Exploring Open-Vocabulary Object Recognition in Images using CLIP2026

YOLO Object Detectors for Robotics -- a Comparative Study2026

Enhancing Open-Vocabulary Object Detection through Multi-Level Fine-Grained Visual-Language Alignment2026

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design2026

ZENITH: Automated Gradient Norm Informed Stochastic Optimization2026

SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation2025

Diffusion Is Your Friend in Show, Suggest and Tell2025

LAPX: Lightweight Hourglass Network with Global Context2025

Multi-label Classification with Panoptic Context Aggregation Networks2025

DSeq-JEPA: Discriminative Sequential Joint-Embedding Predictive Architecture2025

Utilizing dynamic sparsity on pretrained DETR2025

A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP2025

PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation2025

LLM-Guided Agentic Object Detection for Open-World Understanding2025

Test-time Vocabulary Adaptation for Language-driven Object Detection2025

unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning2025

Multiple Object Stitching for Unsupervised Representation Learning2025

Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets2025

Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images2025

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval2025

Visual Textualization for Image Prompted Object Detection2025

Decoupling Classifier for Boosting Few-shot Object Detection and Instance Segmentation2025

The Missing Point in Vision Transformers for Universal Image Segmentation2025

DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks2025

Fractional Correspondence Framework in Detection Transformer2025

Exploring Token-Level Augmentation in Vision Transformer for Semi-Supervised Semantic Segmentation2025

Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation2025

Approximate Size Targets Are Sufficient for Accurate Semantic Segmentation2025

Dynamic Relation Inference via Verb Embeddings2025

Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation2024

Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation2025

LP-DETR: Layer-wise Progressive Relations for Object Detection2025

Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation2024

Position Focused Attention Network For Image-text Matching2019 · 198 cites

Data Augmentation To Improve Robustness Of Image Captioning Solutions2021 · 1 cites

CornerNet: Detecting Objects as Paired Keypoints2018 · 3,550 cites

Deformable DETR: Deformable Transformers for End-to-End Object Detection2020 · 1,868 cites

Associative Embedding: End-to-End Learning for Joint Detection and Grouping2016 · 418 cites

Few-Shot Object Detection with Fully Cross-Transformer2022 · 188 cites

CPTR: Full Transformer Network for Image Captioning2021 · 109 cites

Image Captioning: Transforming Objects into Words2019 · 93 cites

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition2022 · 73 cites

Causal Intervention for Weakly-Supervised Semantic Segmentation2020 · 70 cites

One-Shot Instance Segmentation2018 · 68 cites

Self-EMD: Self-Supervised Object Detection without ImageNet2020 · 67 cites

Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection2020 · 66 cites

Face Detection Using Improved Faster RCNN2018 · 64 cites

TFPose: Direct Human Pose Estimation with Transformers2021 · 57 cites

ISTR: End-to-End Instance Segmentation with Transformers2021 · 54 cites

Fully Convolutional Instance-aware Semantic Segmentation2016 · 38 cites

Efficient Visual Pretraining with Contrastive Detection2021 · 33 cites

Unsupervised Discovery of the Long-Tail in Instance Segmentation Using Hierarchical Self-Supervision2021 · 31 cites

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection2021 · 29 cites

CRCNet: Few-shot Segmentation with Cross-Reference and Region-Global Conditional Networks2022 · 27 cites

DiffusionInst: Diffusion Model for Instance Segmentation2022 · 23 cites

Feature-Driven Super-Resolution for Object Detection2020 · 20 cites

Implicit Feature Pyramid Network for Object Detection2020 · 19 cites

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation2022 · 19 cites

End-to-End Object Detection with Fully Convolutional Network2020 · 14 cites

Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers2021 · 8 cites

CAT: Cross-Attention Transformer for One-Shot Object Detection2021 · 8 cites

Hierarchical Attention Network for Few-Shot Object Detection via Meta-Contrastive Learning2022 · 8 cites

Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields2023 · 7 cites

Towards Few-Annotation Learning for Object Detection: Are Transformer-based Models More Efficient ?2023 · 5 cites

T-VSE: Transformer-Based Visual Semantic Embedding2020 · 4 cites

Spatial Reasoning for Few-Shot Object Detection2022 · 4 cites

Analysis of Visual Reasoning on One-Stage Object Detection2022 · 3 cites

HCFormer: Unified Image Segmentation with Hierarchical Clustering2022 · 3 cites

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting2024 · 3 cites

PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation2022 · 2 cites

Contextual Relabelling of Detected Objects2019 · 1 cites

DETReg: Unsupervised Pretraining with Region Priors for Object Detection2021 · 1 cites

Task Specific Attention is one more thing you need for object detection2022 · 1 cites

Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot Object Detection2022 · 1 cites

Can the Query-based Object Detector Be Designed with Fewer Stages?2023 · 1 cites

IvaNet: Learning to jointly detect and segment objets with the help of Local Top-Down Modules2019

Learning to Inpaint by Progressively Growing the Mask Regions2020

Image Captioning using Multiple Transformers for Self-Attention Mechanism2021

Modulating Localization and Classification for Harmonized Object Detection2021

Poseur: Direct Human Pose Regression with Transformers2022

ACORT: A Compact Object Relation Transformer for Parameter Efficient Image Captioning2022

SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object Detection with Transformers2023

CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free2023

COMNet: Co-Occurrent Matching for Weakly Supervised Semantic Segmentation2023

DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation2023

A Simple and Generalist Approach for Panoptic Segmentation2024

COCO-OLAC: A Benchmark for Occluded Panoptic Segmentation and Image Understanding2024

Waterfall Transformer for Multi-person Pose Estimation2024

OPCap:Object-aware Prompting Captioning2024

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation2024

Single-Shot Panoptic Segmentation2019

PE-former: Pose Estimation Transformer2021

Deep Multi-Task Networks For Occluded Pedestrian Pose Estimation2022

COCO dataset — papers, benchmarks & downloads · Computer Vision