← all datasets

MATH-500

Emerging

61papers using it

168,210HF downloads

318HF likes

2025first seen

Dataset Card for MATH-500 This dataset contains a subset of 500 problems from the MATH benchmark that OpenAI created in their Let's Verify Step by Step paper. See their GitHub repo for the source file: https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits

🤗 Hugging Face

Papers using MATH-500 (61)

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination2025 · 68 cites

Stable Reinforcement Learning for Efficient Reasoning2025 · 25 cites

Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning2025 · 24 cites

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model2025 · 10 cites

Kimi k1.5: Scaling Reinforcement Learning with LLMs2025 · 11 cites

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs2025 · 4 cites

How Much Online RL is Enough? Informative Rollouts for Offline Preference Optimization in RLVR2026

RL with Learnable Textual Feedback: A Bilevel Approach2026

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs2025 · 2 cites

Reinforcement Learning for Reasoning in Large Language Models with One Training Example2025 · 1 cites

Discrete Tilt Matching2026

R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning2026

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models2025 · 1 cites

Process Reward Models That Think2025 · 1 cites

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model2025 · 1 cites

SLIM-RL: Risk-Budgeted Random-Masking RL for Diffusion LLMs Without Trajectory Slicing2026

CATPO: Critique-Augmented Tree Policy Optimization2026

Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic Reinforcement Learning2026

Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works2026

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play2026

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning2026

ESPO: Early-Stopping Proximal Policy Optimization2026

Reasoning with Sampling: Cutting at Decision Points2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps2026

PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment2026

Sampling for Quality: Training-Free Reward-Guided LLM Decoding via Sequential Monte Carlo2026

Tool Verification for Test-Time Reinforcement Learning2026

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling2026

Think Dense, Not Long: Dynamic Decoupled Conditional Advantage for Efficient Reasoning2026

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning2026

Boosting LLM Reasoning via Human-Inspired Reward Shaping2026

Beyond Correctness: Learning Robust Reasoning via Transfer2026

Latent Poincar\'e Shaping for Agentic Reinforcement Learning2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models2026

Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models2026

PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization2026

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning2025

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning2025

ScRPO: From Errors to Insights2025

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards2025

GRPO-$\lambda$: Credit Assignment improves LLM Reasoning2025

h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning2025

MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model2025

Reasoning with Sampling: Your Base Model is Smarter Than You Think2025

Inpainting-Guided Policy Optimization for Diffusion Large Language Models2025

SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts2025

From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision2025

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Intervention2025

wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models2025

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models2025

Spurious Rewards: Rethinking Training Signals in RLVR2025

$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts2025

Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning2025

Maximizing Confidence Alone Improves Reasoning2025

Optimal Policy Minimum Bayesian Risk2025

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning2025

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models2025

Controlling Large Language Model with Latent Actions2025

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition2025

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning2025

MATH-500 dataset — papers, benchmarks & downloads · Reinforcement Learning