← all datasets

MM-Vet

Emerging

8papers using it

2023first seen

The 'MM-Vet' dataset/benchmark contains multimodal data used to evaluate the performance of Large Vision-Language Models (LVLMs) in mitigating object hallucinations.

🔎 Find this dataset

Papers using MM-Vet (8)

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models2026

Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification2026

VisPlay: Self-Evolving Vision-Language Models from Images2025

Token-Level Inference-Time Alignment for Vision-Language Models2025

Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model2025

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping2025

ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM2025

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?2023

MM-Vet — datasets — multimodal