← all datasets

MATH

Emerging

45papers using it

2024first seen

The 'MATH' dataset is a benchmark used to evaluate the mathematical reasoning capabilities of models.

🔎 Find this dataset

Papers using MATH (45)

Complementing reinforcement learning with SFT through logit averaging in the post training of LLMs2026

Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization2024 · 2 cites

Group-Aware Reinforcement Learning for Output Diversity in Large Language Models2025 · 1 cites

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings2025 · 1 cites

Entropy-Regularized Process Reward Model2024 · 1 cites

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate2026

CATPO: Critique-Augmented Tree Policy Optimization2026

Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning2026

DUET: Optimize Token-Budget Allocation for Reinforcement Learning with Verifiable Rewards2026

Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward2026

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training2026

VSPO: Vector-Steered Policy Optimization for Behavioral Control2026

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training2026

Learning Adaptive LLM Decoding2026

Discovering Process-Outcome Credit in Multi-Step LLM Reasoning2026

TMS: Trajectory-Mixed Supervision for Reward-Free, On-Policy SFT2026

Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models2026

TRE: Encouraging Exploration in the Trust Region2026

ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization2026

Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients2026

Differentiable Evolutionary Reinforcement Learning2025

Prompt Curriculum Learning for Efficient LLM Post-Training2025

Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning2025

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting2025

Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning2025

GIFT: Group-Relative Implicit Fine-Tuning Integrates GRPO with DPO and UNA2025

MASPRM: Multi-Agent System Process Reward Model2025

Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning2025

It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL2025

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning2025

RL for Reasoning by Adaptively Revealing Rationales2025

TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students2025

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers2025

RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning2025

Mining Intrinsic Rewards from LLM Hidden States for Efficient Best-of-N Sampling2025

Synthetic Data RL: Task Definition Is All You Need2025

ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models2025

Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs2025

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models2025

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement2024 · 13 cites

OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models2024 · 2 cites

VinePPO: Refining Credit Assignment in RL Training of LLMs2024 · 1 cites

Free Process Rewards without Process Labels2024 · 1 cites

Offline Reinforcement Learning for LLM Multi-Step Reasoning2024 · 1 cites

CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks2024

MATH dataset — papers, benchmarks & downloads · Reinforcement Learning