← all datasets

GPQA

Emerging

25papers using it

114,728HF downloads

461HF likes

2025first seen

Dataset Card for GPQA GPQA is a multiple-choice, Q&A dataset of very hard questions written and validated by experts in biology, physics, and chemistry. When attempting questions out of their own domain (e.g., a physicist answers a chemistry question), these experts get only 34% accuracy, despite spending >30m with ful

🤗 Hugging Face⚖ cc-by-4.0

Papers using GPQA (25)

The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis2025 · 10 cites

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry2026

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems2025 · 3 cites

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning2026

Benchmark Illusion: Disagreement Among Llms And Its Scientific Consequences2026

Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data2026

Dr.LLM: Dynamic Layer Routing in LLMs2025

AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment2025

EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance2025

CAC-CoT: Connector-Aware Compact Chain-of-Thought for Efficient Reasoning Data Synthesis Across Dual-System Cognitive Tasks2025

P3: Prompts Promote Prompting2025

Efficient Model Development through Fine-tuning Transfer2025

MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search2025

General-Reasoner: Advancing LLM Reasoning Across All Domains2025

Interleaved Reasoning for Large Language Models via Reinforcement Learning2025

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles2025

Reinforcing General Reasoning without Verifiers2025

Inference-Time Hyper-Scaling with KV Cache Compression2025

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute2025

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs2025

DeepPrune: Parallel Scaling without Inter-trace Redundancy2025

Reasoning with Sampling: Your Base Model is Smarter Than You Think2025

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning2025

INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling2025

Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique2025

GPQA — datasets — llm-papers