← authors · overview

Neel Nanda

13 papers · 5132 citations

Most-cited papers

Training A Helpful And Harmless Assistant With Reinforcement Learning From Human Feedback
2022 · 3872 citations
Refusal In Language Models Is Mediated By A Single Direction
2024 · 599 citations
Linear Representations Of Sentiment In Large Language Models
2023 · 147 citations
Improving Dictionary Learning With Gated Sparse Autoencoders
2024 · 145 citations
Transcoders Find Interpretable LLM Feature Circuits
2024 · 126 citations

Topics

Model Architecture Evaluation Safety & Alignment Fine-Tuning Code Training Techniques Reinforcement Learning In-Context Learning Efficiency