Arena-Hard

Emerging

24papers using it

66HF downloads

1HF likes

2024first seen

The 'Arena-Hard' dataset is a benchmark used to evaluate the performance of reasoning models by assessing their ability to generate outputs that can deceive other LLM judges.

🤗 Hugging Face

Papers using Arena-Hard (24)

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization2025

Token-weighted Direct Preference Optimization with Attention2026

MMoA: An AI-Agent framework with recurrence for Memoried Mixure-of-Agent2026

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training2026

References Improve LLM Alignment in Non-Verifiable Domains2026

The Art of Asking: Multilingual Prompt Optimization for Synthetic Data2025

Icon$^{2}$: Aligning Large Language Models Using Self-Synthetic Preference Data via Inherent Regulation2025

Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization2025

P3: Prompts Promote Prompting2025

SGPO: Self-Generated Preference Optimization based on Self-Improver2025

Robust Preference Optimization via Dynamic Target Margins2025

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization2025

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion2025

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models2025

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs2025

MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge2025

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization2025

Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study2025

ComPO: Preference Alignment via Comparison Oracles2025

RSPO: Regularized Self-Play Alignment of Large Language Models2025

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom2025

Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models2025

T-REG: Preference Optimization with Token-Level Reward Regularization2024

NILE: Internal Consistency Alignment in Large Language Models2024