ScienceWorld

Canonical

21papers using it

2024first seen

ScienceWorld is a benchmark dataset used to evaluate the performance of LLM agents in skill orchestration and execution within structured environments.

🔎 Find this dataset

Papers using ScienceWorld (20)

RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents2025 · 35 cites

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization2026

Auto-Dreamer: Learning Offline Memory Consolidation for Language Agents2026

Blueprint First, Model Second: A Framework for Deterministic LLM Workflow2025 · 6 cites

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning2025 · 3 cites

Task Decomposition-Guided Reranking for Adaptive Agent Skill Retrieval2026

Self-evolving LLM agents with in-distribution Optimization2026

On-Policy Distillation with Curriculum Turn-level Guidance for Multi-turn Agents2026

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents2026

Self-Evolving World Models for LLM Agent Planning2026

Grasp: Graph-structured Skill Compositions For LLM Agents2026

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents2026

DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents2026

Skillnet: Create, Evaluate, And Connect AI Skills2026

PADME: Procedure Aware DynaMic Execution2025

KnowMap: Efficient Knowledge-Driven Task Adaptation for LLMs2025

Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning2025

Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning2025

One STEP at a time: Language Agents are Stepwise Planners2024