Awesome AI Agents

📄Papers 🧭Topics 🔥Trending 🗺️Map 🏆Leaderboards 🎓Learn 🤖Ask AI

⋯More

👥Authors 📚Reading Packs 📊Datasets 🛠️Tools 📰News 📝Blogs ✉️Newsletter 🎯Research Radar 🔖Saved

← all topics overview

Browser Agents

loading…

Stay Updated

E-Mail Digest 🎯 Research Radar

Submit a paper · Privacy · Terms

© 2026 Awesome Papers.

Awesome Browser Agents — curated papers, datasets & benchmarks · Awesome AI Agents

← all topics overview

Awesome Browser Agents

Browser Agents is one of the most active areas in Awesome AI Agents — 735 papers in this collection, evaluated on datasets like ALFWorld, OSWorld, WebArena. A strong starting point is "EASYTOOL: Enhancing Llm-based Agents With Concise Tool Instruction".

Datasets & benchmarks

ALFWorld16 papers

OSWorld11 papers

WebArena10 papers

SWE-bench10 papers

SWE-bench Verified9 papers

WebShop7 papers

AppWorld5 papers

BrowseComp5 papers

ScienceWorld4 papers

SWE-bench Lite4 papers

Key papers

60 papers · trending (default)numbers = 🔥 heat

EASYTOOL: Enhancing Llm-based Agents With Concise Tool Instruction (2024)
Siyu Yuan, Kaitao Song, Jiangjie Chen, et al.
16.88
Qwen-AgentWorld: Language World Models for General Agents (2026)
Yuxin Zuo et al.
14.85
Deep Research Agents: A Systematic Examination And Roadmap (2025)
Yuxuan Huang et al.
13.91
UniClawBench: A Universal Benchmark for Proactive Agents on Real-World Tasks (2026)
Zhekai Chen et al.
13.35
OpenComputer: Verifiable Software Worlds for Computer-Use Agents (2026)
Jinbiao Wei et al.
12.83
MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research (2026)
Dingbang Wu et al.
12.79
Understanding The Weakness Of Large Language Model Agents Within A Complex Android Environment (2024)
Mingzhe Xing, Rongkai Zhang, Hui Xue, et al.
12.57
K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts (2026)
Nahyun Lee et al.
12.51
AI Research Agents Narrow Scientific Exploration (2026)
Yixuan Tang et al.
12.14
GrepSeek: Training Search Agents for Direct Corpus Interaction (2026)
Alireza Salemi et al.
11.95
Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents (2026)
Suji Kim et al.
11.92
AgenticDataBench: A Comprehensive Benchmark for Data Agents (2026)
Zhaoyan Sun et al.
11.78
Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism (2026)
Haoxiang Zhang et al.
11.32
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses (2026)
Pengcheng Jiang et al.
10.97
Swe-agent: Agent-computer Interfaces Enable Automated Software Engineering (2024)
John Yang, Carlos E. Jimenez, Alexander Wettig, et al.
10.85
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents (2026)
Bowen Wang et al.
10.76
NVIDIA-labs OO Agents: Native Python Object-Oriented Agents (2026)
Paul Furgale et al.
10.76
MARS: Modular Agent with Reflective Search for Automated AI Research (2026)
Jiefeng Chen et al.
10.74
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks (2026)
Jian Xie et al.
10.72
Benchmark Test-Time Scaling of General LLM Agents (2026)
Xiaochuan Li et al.
10.20
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents (2026)
Ye Yuan et al.
10.04
Filesystem-Based Memory for LLM Agents: Organization, Evolution, and Sustainability (2026)
Sizhe Zhou et al.
9.91
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know? (2026)
HuiMing Fan et al.
9.89
AI agent in healthcare: applications, evaluations, and future directions (2026)
Lina Zhao et al.
9.70
Data Interpreter: An LLM Agent For Data Science (2024)
Sirui Hong, Yizhang Lin, Bang Liu, et al.
9.66
SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents (2026)
Wenxuan Wang et al.
9.62
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills (2026)
Chuan Xiao et al.
9.62
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks? (2026)
Yuxin Zhang et al.
9.62
LLM Agents Making Agent Tools (2025)
Georg Wölflein, Dyke Ferber, Daniel Truhn, et al.
9.62
Agent-pro: Learning To Evolve Via Policy-level Reflection And Optimization (2024)
Wenqi Zhang, Ke Tang, Hai Wu, et al.
9.59
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions (2026)
Yuxin Chen et al.
9.56
Mobile-agent-v3.5: Multi-platform Fundamental GUI Agents (2026)
Haiyang Xu, Xi Zhang, Haowei Liu, et al.
9.54
RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents (2025)
Zijing Zhang et al.
9.53
Remember When It Matters: Proactive Memory Agent for Long-Horizon Agents (2026)
Yifan Wu et al.
9.48
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents (2026)
Rui Yang et al.
9.43
Edge Large AI Model Agent-Empowered Cognitive Multimodal Semantic Communication (2026)
Y. Sun et al.
9.39
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents (2026)
Hang Yan et al.
9.37
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents (2026)
Haoyi Hu et al.
9.30
DSWorld: A Data Science World Model for Efficient Autonomous Agents (2026)
Zherui Yang et al.
9.05
A Survey On The Optimization Of Large Language Model-based Agents (2025)
Shangheng Du, Jiabao Zhao, Jinxin Shi, et al.
9.04
Tptu-v2: Boosting Task Planning And Tool Usage Of Large Language Model-based Agents In Real-world Systems (2023)
Yilun Kong, Jingqing Ruan, Yihong Chen, et al.
9.03
EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge (2026)
Yunhan Wang et al.
8.84
ORCA-bench: How Ready Are Language Model Agents for Oncall? (2026)
Albert Gong et al.
8.66
Mobile-bench: An Evaluation Benchmark For Llm-based Mobile Agents (2024)
Shihan Deng, Weikai Xu, Hongda Sun, et al.
8.35
Agent Lumos: Unified And Modular Training For Open-source Language Agents (2023)
da Yin, Faeze Brahman, Abhilasha Ravichander, et al.
8.35
Harness-G: A Graph-Structured Harness for Search Agents (2026)
Yanning Hou et al.
7.93
OpenForgeRL: Train Harness-native Agents in Any Environment (2026)
Xiao Yu et al.
7.92
Large Action Models: From Inception To Implementation (2024)
Lu Wang, Fangkai Yang, Chaoyun Zhang, et al.
7.86
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents (2025)
Zile Qiao et al.
7.80
WorldCupArena: Fine-Grained Evaluation of Language Models and Deep-Research Agents on Football Forecasting (2026)
Zhaokai Wang et al.
7.79
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents (2026)
Bingchen Zhao et al.
7.68
Agent Security is a Systems Problem (2026)
Mihai Christodorescu et al.
7.66
Ui-venus-1.5 Technical Report (2026)
Venus Team, Changlong Gao, Zhangxuan Gu, et al.
7.66
AgentSearchBench: A Benchmark for AI Agent Search in the Wild (2026)
Bin Wu et al.
7.60
AIOS: LLM Agent Operating System (2024)
Kai Mei, Xi Zhu, Wujiang Xu, et al.
7.50
StealthBench: Measuring Operational Stealth in Autonomous Offensive-Security Agents (2026)
Ads Dawson et al.
7.32
GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents (2026)
Xiao Zhou et al.
7.25
GUICrafter: Weakly-Supervised GUI Agent Leveraging Massive Unannotated Screenshots (2026)
Sunqi Fan et al.
7.23
OR-Space: A Full-Lifecycle Workspace Benchmark for Industrial Optimization Agents (2026)
Chenyu Zhou et al.
7.20
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion (2026)
Stine Lyngs{\o} Beltoft et al.
7.20