← all datasets

TAU-bench

Emerging

5papers using it

2025first seen

'Tau-Bench' is an airline benchmark dataset used to evaluate the performance of tool-calling agents in realistic customer service tasks.

🔎 Find this dataset

Papers using TAU-bench (5)

Self-Challenging Language Model Agents2025 · 1 cites

Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration2026

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use2026

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors2026

Generalizable End-to-End Tool-Use RL with Synthetic CodeGym2025

TAU-bench dataset — papers, benchmarks & downloads · Reinforcement Learning