GridWorld

Emerging

21papers using it

2024first seen

Gridworld is a benchmark used to evaluate reinforcement learning agents' ability to adapt to changing action spaces and reward functions in a controlled environment.

🔎 Find this dataset

Papers using GridWorld (21)

Fusing Rewards and Preferences in Reinforcement Learning2025 · 2 cites

Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning2025 · 2 cites

Missing Data Multiple Imputation for Tabular Q-Learning in Online RL2025 · 1 cites

Functional Graphs for Predicting and Explaining Goal Failure in Sparse Goal-Conditioned RL2026

Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback2026

Lever: Inference-Time Policy Reuse under Support Constraints2026

A Hessian-Free Actor-Critic Algorithm for Bi-Level Reinforcement Learning with Applications to LLM Fine-Tuning2026

Quantum-Inspired Episode Selection for Monte Carlo Reinforcement Learning via QUBO Optimization2026

Adapting the Behavior of Reinforcement Learning Agents to Changing Action Spaces and Reward Functions2026

Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments2025

Distributed primal-dual algorithm for constrained multi-agent reinforcement learning under coupled policies2025

Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches2025

Policy Gradient with Tree Search: Avoiding Local Optimas through Lookahead2025

Yes, Q-learning Helps Offline In-Context RL2025

Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling2024 · 29 cites

CAESAR: Enhancing Federated RL in Heterogeneous MDPs through Convergence-Aware Sampling with Screening2024 · 2 cites

In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought2024 · 1 cites

Optimal Transport-Assisted Risk-Sensitive Q-Learning2024

Explaining Reinforcement Learning: A Counterfactual Shapley Values Approach2024

Toward Finding Strong Pareto Optimal Policies in Multi-Agent Reinforcement Learning2024

'Explaining RL Decisions with Trajectories': A Reproducibility Study2024