MMStar

Emerging

10papers using it

2024first seen

MMStar (Are We on the Right Way for Evaluating Large Vision-Language Models?) 🌐 Homepage | 🤗 Dataset | 🤗 Paper | 📖 arXiv | GitHub Dataset Details As shown in the figure below, existing benchmarks lack consideration of the vision dependency of evaluation samples and potential data leakage from LLMs' and LVLMs' train

🔎 Find this dataset

Papers using MMStar (10)

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model2025 · 2 cites

ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints2026

Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning2026

HART: High-Resolution Annotation-Free Reasoning Technique through a Closed-loop Framework2026

Qianfan-vl: Domain-enhanced Universal Vision-language Models2025

Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models2025

VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization2025

Visual Compositional Tuning2025

Are We on the Right Way for Evaluating Large Vision-Language Models?2024 · 44 cites

ViCToR: Improving Visual Comprehension via Token Reconstruction for Pretraining LMMs2024