GPQA-Diamond

Emerging

23papers using it

6,511HF downloads

9HF likes

2025first seen

The 'GPQA-Diamond' dataset/benchmark contains reasoning tasks used to evaluate the performance of quantized Large Reasoning Models (LRMs) during fine-tuning.

🤗 Hugging Face

Papers using GPQA-Diamond (23)

Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction2026

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline2026

Transformation-Augmented GRPO for Enhancing Exploration in Reasoning of Large Language Models2026

QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals2026

Improving Data and Reward Design for Scientific Reasoning in Large Language Models2026

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning2026

PRISM: Demystifying Retention and Interaction in Mid-Training2026

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?2026

D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models2026

Asking LLMs to Verify First is Almost Free Lunch2025

Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation2025

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking2025

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models2025

Process Reward Models That Think2025

Prior Prompt Engineering for Reinforcement Fine-Tuning2025

Void in Language Models2025

First Finish Search: Efficient Test-Time Scaling in Large Language Models2025

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling2025

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs2025

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs2025

Answer Matching Outperforms Multiple Choice for Language Model Evaluation2025

Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning2025

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning2025