AIME-24

Emerging

42papers using it

2024first seen

AIME-24 is a benchmark dataset used to evaluate reinforcement learning with verifiable rewards (RLVR) in the context of solving challenging math questions.

🔎 Find this dataset

Papers using AIME-24 (42)

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation2025 · 25 cites

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model2025 · 10 cites

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners2025 · 4 cites

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning2025 · 1 cites

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning2025 · 1 cites

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning2025 · 1 cites

Process Reward Models That Think2025 · 1 cites

CATPO: Critique-Augmented Tree Policy Optimization2026

Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity2026

HTPO: Towards Exploration-Exploitation Balanced Policy Optimization via Hierarchical Token-level Objective Control2026

From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning2026

DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning2026

Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing2026

Learn Hard Problems During RL with Reference Guided Fine-tuning2026

Off-Policy Value-Based Reinforcement Learning for Large Language Models2026

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling2026

ASI-Evolve: AI Accelerates AI2026

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning2026

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning2026

iGRPO: Self-Feedback-Driven LLM Reasoning2026

Latent Poincar\'e Shaping for Agentic Reinforcement Learning2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models2026

Transformation-Augmented GRPO for Enhancing Exploration in Reasoning of Large Language Models2026

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning2025

Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning2025

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards2025

GRPO-$\lambda$: Credit Assignment improves LLM Reasoning2025

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning2025

Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward2025

DCPO: Dynamic Clipping Policy Optimization2025

Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation2025

SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts2025

SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression2025

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Intervention2025

Promoting Efficient Reasoning with Verifiable Stepwise Reward2025

First Return, Entropy-Eliciting Explore2025

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning2025

Skywork Open Reasoner 1 Technical Report2025

SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM2025

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't2025

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement2024 · 13 cites