← authors · overview

Jun Sun

12 papers · 192 citations

Most-cited papers

Defending Large Language Models Against Jailbreak Attacks Via Layer-specific Editing
2024 · 75 citations
Ali-agent: Assessing Llms' Alignment With Human Values Via Agent-based Evaluation
2024 · 49 citations

Topics

Safety & Alignment Fine-Tuning Reinforcement Learning Evaluation Agentic