GSM8K

Emerging

6papers using it

2024first seen

GSM8K is a benchmark dataset that contains a collection of 8,000 diverse mathematical word problems used to evaluate language reasoning capabilities in models.

🔎 Find this dataset

Papers using GSM8K (6)

Dynin-Omni: Omnimodal Unified Large Diffusion Language Model2026

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs2026

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm2025

GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems In Visual Contexts2025

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models2025

Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination2024