TerminalBench-2

Emerging

5papers using it

2026first seen

'TerminalBench-2' is a dataset used to evaluate the performance and capabilities of meta-agents in managing and manipulating agentic execution states during complex tasks.

🔎 Find this dataset

Papers using TerminalBench-2 (5)

Dissecting model behavior through agent trajectories2026

Sandboxed Coding Agents are Competitive Omni-modal Task Solvers2026

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses2026 · 1 cites

Shepherd: Enabling Programmable Meta-Agents via Reversible Agentic Execution Traces2026

Automated Benchmark Auditing for AI Agents and Large Language Models2026