← all datasets

AlpacaEval~2

Emerging

19papers using it

2024first seen

🔎 Find this dataset

Papers using AlpacaEval~2 (19)

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization2025

Less is More: Improving LLM Alignment via Preference Data Selection2025 · 1 cites

Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples2025 · 1 cites

Small-Margin Preferences Still Matter-If You Train Them Right2026

Weights-Rotated Preference Optimization for Large Language Models2025

Aligning Large Language Models with Implicit Preferences from User-Generated Content2025

Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms2025

Robust Preference Optimization via Dynamic Target Margins2025

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization2025

Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization2025

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion2025

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization2025

ComPO: Preference Alignment via Comparison Oracles2025

RSPO: Regularized Self-Play Alignment of Large Language Models2025

DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models2025

Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models2025

Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization2025

From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning2025

T-REG: Preference Optimization with Token-Level Reward Regularization2024

AlpacaEval~2 — datasets — llm-papers