← all datasets

HealthBench-Hard

Emerging

3papers using it

92HF downloads

0HF likes

2025first seen

HealthBench-Hard is a benchmark used to evaluate the alignment of large language models with clinician preferences in healthcare contexts.

🤗 Hugging Face⚖ mit

Papers using HealthBench-Hard (3)

ClinAlign: Scaling Healthcare Alignment from Clinician Preference2026

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training2025

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training2025

HealthBench-Hard — datasets — llm-papers