MMSU

Emerging

7papers using it

2025first seen

[ICLR 2026] MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark Overview of MMSU MMSU (Massive Multi-task Spoken Language Understanding and Reasoning Benchmark) is a comprehensive benchmark for evaluating fine-grained spoken language understanding and reasoning in multimodal models. It syst

🔎 Find this dataset

Papers using MMSU (7)

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding2026

ALARM: Audio-Language Alignment for Reasoning Models2026

Closing the Modality Reasoning Gap for Speech Large Language Models2026

MiMo-Audio: Audio Language Models are Few-Shot Learners2025

TASU: Text-Only Alignment for Speech Understanding2025

AQA-TTRL: Self-Adaptation in Audio Question Answering with Test-Time Reinforcement Learning2025

DIFFA: Large Language Diffusion Models Can Listen and Understand2025