AIME-24/25

Emerging

7papers using it

2025first seen

The AIME24/25 dataset/benchmark is used to evaluate the reasoning capabilities of diffusion large language models (dLLMs) in generating high-quality outputs while balancing exploration and quality during token decoding.

🔎 Find this dataset

Papers using AIME-24/25 (7)

Inference Time Optimization with Confidence Dynamics2026

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models2026

Aligning Tree-Search Policies with Fixed Token Budgets in Test-Time Scaling of LLMs2026

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities2025

Input-Time Scaling: Adding Noise and Irrelevance into Less-Is-More Drastically Improves Reasoning Performance and Efficiency2025

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities2025

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution2025