BeaverTails

Emerging

1papers using it

2026first seen

The 'BeaverTails' dataset is a benchmark used to evaluate the effectiveness of defenses against adversarial attacks on open-weight large language models (LLMs).

🔎 Find this dataset

Papers using BeaverTails (1)

Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks2026

BeaverTails dataset — papers, benchmarks & downloads · Cybersecurity