GSM8K

Emerging

25papers using it

2024first seen

The GSM8K dataset is a benchmark that contains complex mathematical reasoning problems used to evaluate the reasoning abilities of large language models.

🔎 Find this dataset

Papers using GSM8K (25)

Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models2025 · 7 cites

SPEAR: Code-Augmented Agentic Prompt Optimization2026

LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models2026

Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks2026

Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving2026

ARMOR-MAD: Adaptive Routing for Heterogeneous Multi-Agent Debate in Large Language Model Reasoning2026

TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems2026

When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation2026

Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution2025 · 1 cites

P3: Prompts Promote Prompting2025 · 1 cites

GEMMAS: Graph-based Evaluation Metrics For Multi Agent Systems2025 · 1 cites

Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection2026

Qkvshare: Quantized Kv-cache Handoff For Multi-agent On-device Llms2026

Reasoning Topology Matters: Network-of-thought For Complex Reasoning Tasks2026

CROP: Token-efficient Reasoning In Large Language Models Via Regularized Prompt Optimization2026

Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval2026

Prototype-Based Dynamic Steering for Large Language Models2025

HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication2025

AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need2025

Training Large Language Models to Reason via EM Policy Gradient2025

Can Large Language Models Invent Algorithms To Improve Themselves?: Algorithm Discovery For Recursive Self-improvement Through Reinforcement Learning2024

Prompt Selection And Augmentation For Few Examples Code Generation In Large Language Model And Its Application In Robotics Control2024

Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning2024 · 9 cites

Think Beyond Size: Adaptive Prompting for More Effective Reasoning2024 · 1 cites

CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks2024