AIME

Emerging

33papers using it

171HF downloads

0HF likes

2025first seen

The AIME dataset/benchmark contains mathematical reasoning tasks used to evaluate the performance of large language models in generating correct solutions and intermediate reasoning steps.

🤗 Hugging Face

Papers using AIME (33)

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination2025 · 68 cites

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models2025 · 26 cites

Kimi k1.5: Scaling Reinforcement Learning with LLMs2025 · 11 cites

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs2025

Don't Let Gains FADE: Breaking Down Policy Gradient Weights in RL2026

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning2025 · 2 cites

Variational Proximal Policy Optimization2026

PAEC: Position-Aware Entropy Calibration for LLM Reasoning in RLVR2026

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps2026

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning2026

Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models2026

Boosting LLM Reasoning via Human-Inspired Reward Shaping2026

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization2026

Evolutionary System Prompt Learning for Reinforcement Learning in LLMs2026

ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization2026

SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets2026

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving2025

ScRPO: From Errors to Insights2025

h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning2025

Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning2025

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs2025

CLAWS:Creativity detection for LLM-generated solutions using Attention Window of Sections2025

GIFT: Group-Relative Implicit Fine-Tuning Integrates GRPO with DPO and UNA2025

Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning2025

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning2025

Reward Is Enough: LLMs Are In-Context Reinforcement Learners2025

RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning2025

TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning2025

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning2025

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles2025

Maximizing Confidence Alone Improves Reasoning2025

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition2025