← all datasets

BrowseComp

Emerging

5papers using it

2026first seen

BrowseComp is a benchmark used to evaluate the performance of models in managing context during multi-round interactions.

🔎 Find this dataset

Papers using BrowseComp (5)

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters2026

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery2026

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories2026

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search2026

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge2026

BrowseComp — datasets — ai-for-code