← all datasets

ImageNet-10

Emerging

15papers using it

2025first seen

'ImageNet-10' is a subset of the ImageNet dataset that contains a limited number of classes and is used to evaluate the performance of multimodal systems in vision-language understanding.

🔎 Find this dataset

Papers using ImageNet-10 (15)

Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference2026

Immuno-VLM: Immunizing Large Vision-Language Models via Generative Semantic Antibodies for Open-World Trustworthiness2026

JEPA-T: Joint-embedding Predictive Architecture With Text Fusion For Image Generation2025

Multimodal Large Language Models as Image Classifiers2026

EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation2026

High-Fidelity Text-to-Image Generation from Pre-Trained Vision-Language Models via Distribution-Conditioned Diffusion Decoding2026

Explaining CLIP Zero-shot Predictions Through Concepts2026

Koo-Fu CLIP: Closed-Form Adaptation of Vision-Language Models via Fukunaga-Koontz Linear Discriminant Analysis2026

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers2026

Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models2026

Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model2026

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions2025

ViLU: Learning Vision-Language Uncertainties for Failure Prediction2025

Beginning With You: Perceptual-initialization Improves Vision-language Representation And Alignment2025

Image Recognition With Vision And Language Embeddings Of Vlms2025

ImageNet-10 — datasets — multimodal