WebShop

Canonical

48papers using it

2023first seen

The 'WebShop' dataset is a benchmark used to evaluate the performance of AI agents in a shopping environment, focusing on their ability to interact with and navigate through various tasks related to online shopping.

🔎 Find this dataset

Papers using WebShop (44)

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning2026

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry2026

SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories2026

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning2026

TurnOPD: Making On-Policy Distillation Turn-Aware for Efficient Long-Horizon Agent Training2026

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization2026

SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment2026 · 2 cites

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents2026

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning2025 · 3 cites

RSPO: Reward-Swap Policy Optimization for Multi-Turn LLM Agents2026

STAPO: Selective Trajectory-Aware Policy Optimization for LLM Agent Training2026

Unified Context Evolution for LLM Agents2026

SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training2026

AdaMEM: Test-Time Adaptive Memory for Language Agents2026

From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents2026

Self-evolving LLM agents with in-distribution Optimization2026

3SPO: State-Score-Supervised Policy Optimization for LLM Agents2026

On-Policy Distillation with Curriculum Turn-level Guidance for Multi-turn Agents2026

EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning2026

Uncertainty Decomposition for Clarification Seeking in LLM Agents2026

Semantic Consistency Policy Optimization for Reinforcement Learning of LLM Agents2026

Joint Learning of Experiential Rules and Policies for Large Language Model Agents2026

ATOD: Annealed Turn-Aware On-Policy Distillation for Multi-Turn Agentic Tasks2026

Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents2026

Proper Scoring Rules for Agentic Uncertainty Quantification2026

Where LLM Agents Fail And How They Can Learn From Failures2025

Progress- and Reliability-Oriented Group Policy Optimization for Agentic Reinforcement Learning2026

Retrospective Progress-Aware Self-Refinement for LLM Agent Training2026

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization2026

ShadowMerge: A Novel Poisoning Attack on Graph-Based Agent Memory via Relation-Channel Conflicts2026

Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents2026

When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization for Long-Horizon LLM Agent Training2026

UCOB: Learning to Utilize and Evolve Agentic Skills via Credit-Aware On-Policy Bidirectional Self-Distillation2026

Grasp: Graph-structured Skill Compositions For LLM Agents2026

OTora: A Unified Red Teaming Framework for Reasoning-Level Denial-of-Service in LLM Agents2026

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents2026

Dynamic Dual-Granularity Skill Bank for Agentic RL2026

Skillnet: Create, Evaluate, And Connect AI Skills2026

TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents2026

Meta-RL Induces Exploration in Language Agents2025

Graph-Enhanced Policy Optimization in LLM Agent Training2025

Structured Agent Distillation for Large Language Model2025

Better Than Your Teacher: LLM Agents That Learn From Privileged AI Feedback2024 · 1 cites

ADaPT: As-Needed Decomposition and Planning with Language Models2023 · 2 cites