← all datasets

AMC-23

Emerging

8papers using it

5,846HF downloads

1HF likes

2025first seen

The 'AMC23' dataset is a benchmark used to evaluate the performance of models in long-context reasoning tasks.

🤗 Hugging Face

Papers using AMC-23 (8)

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning2026

Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation2025

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't2025

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models2025

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution2025

Skill-Targeted Adaptive Training2025

AMC-23 — datasets — llm-papers