Terminal-Bench 2.0

Emerging

3papers using it

2026first seen

Terminal-Bench~2.0 is a benchmark dataset used to evaluate the performance of large language model agents in long-horizon tasks by assessing their interaction with various harnesses.

🔎 Find this dataset

Papers using Terminal-Bench 2.0 (3)

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings2026

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness2026

On Data Engineering for Scaling LLM Terminal Capabilities2026