← all datasets

MATH-500

Emerging

50papers using it

182HF downloads

9HF likes

2025first seen

https://github.com/openai/prm800k/blob/main/prm800k/math_splits/test.jsonl

🤗 Hugging Face

Papers using MATH-500 (50)

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space2025 · 26 cites

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback2025 · 1 cites

Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting2026

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning2026

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models2026

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks2026

DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning2026

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression2026

Aligning Tree-Search Policies with Fixed Token Budgets in Test-Time Scaling of LLMs2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

Reevaluating Self-Consistency Scaling in Multi-Agent Systems2025

Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation2025

From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs2025

MemLens: Uncovering Memorization in LLMs with Activation Trajectories2025

MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning2025

Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty2025

Steering LLM Thinking with Budget Guidance2025

Kimi k1.5: Scaling Reinforcement Learning with LLMs2025

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament2025

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling2025

Thinking Preference Optimization2025

SIFT: Grounding LLM Reasoning in Contexts via Stickers2025

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking2025

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models2025

T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models2025

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought2025

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models2025

Process Reward Models That Think2025

Reinforcement Learning for Reasoning in Large Language Models with One Training Example2025

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math2025

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space2025

Thinkless: LLM Learns When to Think2025

Not All Correct Answers Are Equal: Why Your Distillation Source Matters2025

PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval2025

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning2025

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models2025

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute2025

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs2025

Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning2025

Inpainting-Guided Policy Optimization for Diffusion Large Language Models2025

ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning2025

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution2025

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs2025

Reasoning with Sampling: Your Base Model is Smarter Than You Think2025

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling2025

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning2025

Faster and Better LLMs via Latency-Aware Test-Time Scaling2025

Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning2025

Adaptive Rectification Sampling for Test-Time Compute Scaling2025

Controlling Large Language Model with Latent Actions2025

MATH-500 — datasets — llm-papers