WebArena

Canonical

21papers using it

2024first seen

WebArena is a benchmark dataset used to evaluate the performance of large language model web agents by measuring their ability to execute structured tool actions based on web interactions.

🔎 Find this dataset

Papers using WebArena (20)

Mobile-agent-v3.5: Multi-platform Fundamental GUI Agents2026

Multi-Agent Transactive Memory2026

Devil's Advocate: Anticipatory Reflection For LLM Agents2024 · 3 cites

The Compliance Trap: Diagnosing How AI Agents Consume Conflicting Memory2026

Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval2026

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns2026

Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection2026

APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents2026

Adarubric: Task-adaptive Rubrics For LLM Agent Evaluation2026

Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents2026

Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory2025

WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent2026

Agenther: Hindsight Experience Replay For LLM Agent Trajectory Relabeling2026

Environment Maps: Structured Environmental Representations For Long-horizon Agents2026

OpAgent: Operator Agent for Web Navigation2026

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates2026

SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent2025

WEBSERV: A Full-Stack and RL-Ready Web Environment for Training Web Agents at Scale2026

Surfer 2: The Next Generation Of Cross-platform Computer Use Agents2025

CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration2024 · 1 cites