← all datasets

AIME-24

Emerging

29papers using it

6,620HF downloads

18HF likes

2025first seen

AIME 24 American Invitational Mathematics Examination (AIME) 2024 Citation If you use the AIME24 dataset in your research, please consider citing it as follows: @misc{aime24, title={American Invitational Mathematics Examination (AIME) 2024}, author={Zhang, Yifan and Math-AI, Team}, year={2024}, }

🤗 Hugging Face⚖ apache-2.0

Papers using AIME-24 (29)

Transformation-Augmented GRPO for Enhancing Exploration in Reasoning of Large Language Models2026

Introspective Diffusion Language Models2026

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding2026

Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning2026

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks2026

Benchmarking EngGPT2-16B-A3B against Comparable Italian and International Open-source LLMs2026

Test-time Recursive Thinking: Self-Improvement without External Feedback2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning2025

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling2025

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond2025

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't2025

Process Reward Models That Think2025

SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization2025

First Finish Search: Efficient Test-Time Scaling in Large Language Models2025

Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions2025

Skywork Open Reasoner 1 Technical Report2025

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning2025

Inference-Time Hyper-Scaling with KV Cache Compression2025

ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs2025

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR2025

DCPO: Dynamic Clipping Policy Optimization2025

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning2025

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning2025

ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning2025

Skill-Targeted Adaptive Training2025

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning2025

Scaling Reasoning without Attention2025

SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM2025

AIME-24 — datasets — llm-papers