← all datasets

Video-MME

Emerging

30papers using it

52,339HF downloads

95HF likes

2024first seen

🤗 Hugging Face

Papers using Video-MME (30)

Task-Focused Memorization for Multimodal Agents2026

Native Active Perception as Reasoning for Omni-Modal Understanding2026

Xiaomi Mimo-vl-miloco Technical Report2025

MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models2026

Reflect-R1: Evidence-Driven Reflection for Self-Correction in Long Video Understanding2026

VisReflect: Latent Visual Reflection for Fine-Grained Perception in Long Visual Context2026

Dynin-Omni: Omnimodal Unified Large Diffusion Language Model2026

Where to Focus: Query-Modulated Multimodal Keyframe Selection for Long Video Understanding2026

Event-Anchored Frame Selection for Effective Long-Video Understanding2026

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs2026

Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding2026

Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding2026

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering2026

LensWalk: Agentic Video Understanding by Planning How You See in Videos2026

MACD: Model-Aware Contrastive Decoding via Counterfactual Data2026

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding2026

LinMU: Multimodal Understanding Made Linear2026

Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform2026

Video Evidence to Reasoning Efficient Video Understanding via Explicit Evidence Grounding2026

Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding2026

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding2026

Structured Over Scale: Learning Spatial Reasoning from Educational Video2026

VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning2025

Scaling RL To Long Videos2025

VSI: Visual Subtitle Integration For Keyframe Selection To Enhance Long Video Understanding2025

Lightweight Structured Multimodal Reasoning For Clinical Scene Understanding In Robotics2025

Enhancing Temporal Understanding In Video-llms Through Stacked Temporal Attention In Vision Encoders2025

Less Is More: Token-efficient Video-qa Via Adaptive Frame-pruning And Semantic Graph Integration2025

Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs2025

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis2024 · 11 cites

Video-MME dataset — papers, benchmarks & downloads · Multimodal