← all datasets

OlympiadBench

Emerging

7papers using it

985HF downloads

5HF likes

2025first seen

'OlympiadBench' is a benchmark used to evaluate complex reasoning capabilities of large language models (LLMs).

🤗 Hugging Face

Papers using OlympiadBench (7)

Transformation-Augmented GRPO for Enhancing Exploration in Reasoning of Large Language Models2026

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding2026

Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation2025

Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament2025

SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization2025

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision2025

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models2025

OlympiadBench — datasets — llm-papers