← all datasets

ImageNet

Canonical

55papers using it

9,123HF downloads

2HF likes

2016first seen

~1.28M labeled images across 1,000 categories (ILSVRC) — the standard large-scale image-classification benchmark.

🤗 Hugging Face

Papers using ImageNet (55)

Classifier-agnostic Saliency Map Extraction2018 · 10 cites

Soft Mixture-of-Recursions: Going Deeper with Recursive Vision Transformers2026

DnA: Denoising Attention for Visual Tasks2026

Fusion: A Framework for Unified Sequential Token AdaptatIon in VisiOn TraNsformers2026

Rethinking Depth Pruning for Vision Transformers: A Heterogeneity-Aware Perspective2026

Gradient-Skipping Relevance Propagation for Efficient Explainability of Vision Transformers2026

Inhibited Self-Attention: Sharpening Focus in Vision Transformers2026

Achieving 3D Attention via Triplet Squeeze and Excitation Block2025 · 1 cites

OCT Data is All You Need: How Vision Transformers with and without Pre-training Benefit Imaging2025 · 1 cites

Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models2024 · 1 cites

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer2026

What-Where Transformer: A Slot-Centric Visual Backbone for Concurrent Representation and Localization2026

Normalizing Flows with Iterative Denoising2026

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers2026

Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation2026

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design2026

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement2026

RAViT: Resolution-Adaptive Vision Transformer2026

DSeq-JEPA: Discriminative Sequential Joint-Embedding Predictive Architecture2025

Enhancing Transformer-Based Vision Models: Addressing Feature Map Anomalies Through Novel Optimization Strategies2025

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models2025

Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection2025

Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows2025

Quick Bypass Mechanism of Zero-Shot Diffusion-Based Image Restoration2025

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation2025

Exploring Superposition and Interference in State-of-the-Art Low-Parameter Vision Models2025

Object-level Self-Distillation for Vision Pretraining2025

Multiple Object Stitching for Unsupervised Representation Learning2025

Image Recognition with Online Lightweight Vision Transformer: A Survey2025

D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition2025

Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in Dual2025

An Attention Free Transformer2021 · 42 cites

Decomposeme: Simplifying Convnets For End-to-end Learning2016 · 34 cites

On The Surprising Effectiveness Of Attention Transfer For Vision Transformers2024

'part'ly First Among Equals: Semantic Part-based Benchmarking For State-of-the-art Object Recognition Systems2016

Efficient Self-supervised Vision Transformers for Representation Learning2021 · 83 cites

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition2022 · 73 cites

Understanding The Robustness in Vision Transformers2022 · 34 cites

Efficient Visual Pretraining with Contrastive Detection2021 · 33 cites

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection2021 · 29 cites

Finding an Unsupervised Image Segmenter in Each of Your Deep Generative Models2021 · 20 cites

Scaling Vision Transformers2021 · 16 cites

A Unified View of Masked Image Modeling2022 · 14 cites

Decoder Denoising Pretraining for Semantic Segmentation2022 · 10 cites

Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields2023 · 7 cites

Exploring the Limits of Deep Image Clustering using Pretrained Models2023 · 2 cites

Pixel Objectness2017 · 1 cites

Semi-Supervised Vision Transformers2021 · 1 cites

OVO: One-shot Vision Transformer Search with Online distillation2022 · 1 cites

Patch Is Not All You Need2023 · 1 cites

Multistep Distillation of Diffusion Models via Moment Matching2024 · 1 cites

Improving Visual Representation Learning through Perceptual Understanding2022

DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency2023

AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs2024

CRAFT Objects from Images2016

ImageNet dataset — papers, benchmarks & downloads · Computer Vision