← authors · overview

Ruoxi Jia

12 papers · 1560 citations

Most-cited papers

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
2023 · 1086 citations
Sorry-bench: Systematically Evaluating Large Language Model Safety Refusal
2024 · 168 citations
Algorithm Of Thoughts: Enhancing Exploration Of Ideas In Large Language Models
2023 · 108 citations
Rigorllm: Resilient Guardrails For Large Language Models Against Undesired Content
2024 · 76 citations
Practical Membership Inference Attacks Against Large-scale Multi-modal Models: A Pilot Study
2023 · 49 citations

Topics

Safety & Alignment Model Architecture Evaluation Fine-Tuning RAG Training Techniques Vision-Language Efficiency In-Context Learning