← authors · overview

Han Zhao

12 papers · 1037 citations

Most-cited papers

Interpretable Preferences Via Multi-objective Reward Modeling And Mixture-of-experts
2024 · 355 citations
RLHF Workflow: From Reward Modeling To Online RLHF
2024 · 236 citations
Mitigating The Alignment Tax Of RLHF
2023 · 166 citations
Arithmetic Control Of Llms For Diverse User Preferences: Directional Preference Alignment With Multi-objective Rewards
2024 · 140 citations
Cobra: Extending Mamba To Multi-modal Large Language Model For Efficient Inference
2024 · 121 citations

Topics

Reinforcement Learning Training Techniques Safety & Alignment Fine-Tuning Efficiency Model Architecture Vision-Language