← all datasets

GSM8K

Canonical

104papers using it

2024first seen

The 'GSM8K' dataset is a benchmark that contains math problems designed to evaluate the performance of multimodal large language models (MLLMs) in understanding and solving mathematical tasks.

🔎 Find this dataset

Papers using GSM8K (104)

HRM-Text: Efficient Pretraining Beyond Scaling2026

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space2025 · 26 cites

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry2026

On the Limits of Layer Pruning for Generative Reasoning in Large Language Models2026

Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning2026

REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak2026

How Should LLMs Consume High-Quality Data? Optimal Data Scheduling via Quality-Aware Functional Scaling Laws2026

The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic2026

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding2025 · 2 cites

The Price of Format: Diversity Collapse in LLMs2025 · 2 cites

When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation2026

Exploring LLM Reasoning Through Controlled Prompt Variations2025 · 1 cites

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation2026

Confidence Geometry Reveals Trace-Level Correctness in Large Language Model Reasoning2026

Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers2026

Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA2026

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs2026

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs2026

Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting2026

Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference2026

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs2026

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models2026

Training Language Models via Neural Cellular Automata2026

Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning2026

Benchmarking EngGPT2-16B-A3B against Comparable Italian and International Open-source LLMs2026

Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities2026

AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency2026

Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima2026

Residual Stream Analysis of Overfitting And Structural Disruptions2026

SCAN: Sparse Circuit Anchor Interpretable Neuron for Lifelong Knowledge Editing2026

Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation2026

Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval2026

ROAST: Rollout-based On-distribution Activation Steering Technique2026

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning2026

Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning2025

Group-Aware Reinforcement Learning for Output Diversity in Large Language Models2025

Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems2025

Fine-Tuning on Noisy Instructions: Effects on Generalization and Performance2025

Prototype-Based Dynamic Steering for Large Language Models2025

Dr.LLM: Dynamic Layer Routing in LLMs2025

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space2025

Vis-CoT: A Human-in-the-Loop Framework for Interactive Visualization and Intervention in LLM Chain-of-Thought Reasoning2025

From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs2025

LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures2025

Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs2025

CAC-CoT: Connector-Aware Compact Chain-of-Thought for Efficient Reasoning Data Synthesis Across Dual-System Cognitive Tasks2025

P3: Prompts Promote Prompting2025

Text-to-LoRA: Instant Transformer Adaption2025

Enhancing Reasoning Capabilities of Small Language Models with Blueprints and Prompt Template Search2025

Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty2025

Learning to Insert [PAUSE] Tokens for Better Reasoning2025

ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference2025

Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges2025

SIFT: Grounding LLM Reasoning in Contexts via Stickers2025

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving2025

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?2025

Entropy-Based Adaptive Weighting for Self-Training2025

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models2025

Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution2025

AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection2025

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space2025

Thinkless: LLM Learns When to Think2025

EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning2025

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models2025

Learning a Continue-Thinking Token for Enhanced Test-Time Scaling2025

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute2025

CommVQ: Commutative Vector Quantization for KV Cache Compression2025

Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future2025

Aryabhata: An exam-focused language model for JEE Math2025

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing2025

Inpainting-Guided Policy Optimization for Diffusion Large Language Models2025

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution2025

dParallel: Learnable Parallel Decoding for dLLMs2025

Fine-Tuning on Noisy Instructions: Effects on Generalization and Performance2025

Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts2025

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs2025

OpenSIR: Open-Ended Self-Improving Reasoner2025

LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding2025

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks2025

AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection2025

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning2025

Dual Decomposition of Weights and Singular Value Low Rank Adaptation2025

Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst2025

Efficient Data Selection at Scale via Influence Distillation2025

Adaptive Rectification Sampling for Test-Time Compute Scaling2025

Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models2025

Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models2025

Leveraging Uncertainty Estimation for Efficient LLM Routing2025

TokenSkip: Controllable Chain-of-Thought Compression in LLMs2025

Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?2025

Self-Training Elicits Concise Reasoning in Large Language Models2025

DIVE: Diversified Iterative Self-Improvement2025

Evolutionary Pre-Prompt Optimization for Mathematical Reasoning2024

Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models2024

Understanding Chain-of-Thought in LLMs through Information Theory2024 · 1 cites

Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation2024

Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment2024

Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding2024

Reasoning Robustness of LLMs to Adversarial Typographical Errors2024

Learning to Reason via Self-Iterative Process Feedback for Small Language Models2024

GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers2024

Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions2024

LLM2: Let Large Language Models Harness System 2 Reasoning2024

CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning2024

GSM8K — datasets — llm-papers