← all datasets

GSM8K

Emerging

65papers using it

2024first seen

GSM-8K is a benchmark dataset that contains problems requiring single-step reasoning, used to evaluate the performance of large language model agents in decision-making tasks.

🔎 Find this dataset

Papers using GSM8K (65)

Stable Reinforcement Learning for Efficient Reasoning2025 · 25 cites

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models2025 · 17 cites

Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models2025 · 7 cites

RUMAD: Reinforcement-Unifying Multi-Agent Debate2026 · 2 cites

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs2025 · 4 cites

Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain2025 · 3 cites

Weight-Space Geometry of Offline Reasoning Training2026

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs2025 · 2 cites

Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization2024 · 2 cites

Discrete Tilt Matching2026

Group-Aware Reinforcement Learning for Output Diversity in Large Language Models2025 · 1 cites

Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning2025 · 1 cites

Entropy-Regularized Process Reward Model2024 · 1 cites

SLIM-RL: Risk-Budgeted Random-Masking RL for Diffusion LLMs Without Trajectory Slicing2026

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models2026

Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works2026

Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning2026

Structured Recurrent Mixers for Massively Parallelized Sequence Generation2026

LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning2026

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play2026

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training2026

Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation2026

Quantifying Empirical Compute-Supervision Tradeoffs in RLVR2026

Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents2026

ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning2026

Think Dense, Not Long: Dynamic Decoupled Conditional Advantage for Efficient Reasoning2026

TMS: Trajectory-Mixed Supervision for Reward-Free, On-Policy SFT2026

Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning2026

$n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models2026

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs2026

AGGC: Adaptive Group Gradient Clipping for Stabilizing Large Language Model Training2026

SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets2026

Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients2026

Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning2025

Differentiable Evolutionary Reinforcement Learning2025

ScRPO: From Errors to Insights2025

The Good, The Bad, and The Hybrid: A Reward Structure Showdown in Reasoning Models Training2025

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning2025

Reward Model Routing in Alignment2025

h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning2025

GIFT: Group-Relative Implicit Fine-Tuning Integrates GRPO with DPO and UNA2025

MASPRM: Multi-Agent System Process Reward Model2025

Inpainting-Guided Policy Optimization for Diffusion Large Language Models2025

It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL2025

wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models2025

Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance2025

LearnAlign: Data Selection for LLM Reinforcement Learning with Improved Gradient Alignment2025

RL for Reasoning by Adaptively Revealing Rationales2025

TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students2025

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs2025

Maximizing Confidence Alone Improves Reasoning2025

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models2025

Synthetic Data RL: Task Definition Is All You Need2025

Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use2025

Training Large Language Models to Reason via EM Policy Gradient2025

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models2025

Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs2025

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models2025

Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning2024 · 4 cites

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement2024 · 13 cites

VinePPO: Refining Credit Assignment in RL Training of LLMs2024 · 1 cites

Offline Reinforcement Learning for LLM Multi-Step Reasoning2024 · 1 cites

CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks2024

SMART: Self-learning Meta-strategy Agent for Reasoning Tasks2024

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models2024

GSM8K dataset — papers, benchmarks & downloads · Reinforcement Learning