← all datasets

WebShop

Emerging

21papers using it

2024first seen

The 'WebShop' dataset is a benchmark used to evaluate the performance of reinforcement learning agents in complex task environments.

🔎 Find this dataset

Papers using WebShop (21)

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization2026

Hindsight Credit Assignment for Long-Horizon LLM Agents2026

Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents2026

SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards2026

Group-in-Group Policy Optimization for LLM Agent Training2025 · 1 cites

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning2026

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents2026

Meta-RL Induces Exploration in Language Agents2025

Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement2025

DEPO: Dual-Efficiency Preference Optimization for LLM Agents2025

Reflect before Act: Proactive Error Correction in Language Models2025

Enhancing Decision-Making of Large Language Models via Actor-Critic2025

Exploring Expert Failures Improves LLM Agent Tuning2025

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents2025

Where LLM Agents Fail and How They can Learn From Failures2025

Structured Agent Distillation for Large Language Model2025

Retrospex: Language Agent Meets Offline Reinforcement Learning Critic2025

A Training-free LLM Framework with Interaction between Contextually Related Subtasks in Solving Complex Tasks2025

EDGE: Efficient Data Selection for LLM Agents via Guideline Effectiveness2025

ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents2024 · 2 cites

StateAct: Enhancing LLM Base Agents via Self-prompting and State-tracking2024

WebShop — datasets — llm-papers