← all datasets

D4RL

Canonical

125papers using it

3,427HF downloads

4HF likes

2024first seen

Datasets for Deep Data-Driven RL — standardized offline-RL benchmark tasks and logged datasets.

🤗 Hugging Face⚖ apache-2.0

Papers using D4RL (125)

Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data2025 · 6 cites

Directly Forecasting Belief for Reinforcement Learning with Delays2025 · 4 cites

Shortcut Trajectory Planning for Efficient Offline Reinforcement Learning2026

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning2026

Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning2025 · 2 cites

Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer2025 · 1 cites

Learning on One Mode: Addressing Multi-modality in Offline Reinforcement Learning2024 · 1 cites

Diffusion Model Predictive Control2024

Drift Q-Learning2026

Counterfactual Transport Flows for Offline Conservative Trajectory Refinement2026

Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer2026

Path-Coupled Bellman Flows for Distributional Reinforcement Learning2026

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking2026

Peng's Q($\lambda$) for Conservative Value Estimation in Offline Reinforcement Learning2026

COOPO: Cyclic Offline-Online Policy Optimization Algorithm2026

Neuro-Inspired Inverse Learning for Planning and Control2026

Moment Matching Q-Learning2026

Reinforcement Learning via Value Gradient Flow2026

Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning2026

When Policies Cannot Be Retrained: A Unified Closed-Form View of Post-Training Steering in Offline Reinforcement Learning2026

IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning2026

Robust Regularized Policy Iteration under Transition Uncertainty2026

GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL2026

Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning2026

SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer2026

Flow Actor-Critic for Offline Reinforcement Learning2026

CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning2026

Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning2026

Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning2026

Agile Reinforcement Learning through Separable Neural Architecture2026

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning2025

Long-Horizon Model-Based Offline Reinforcement Learning Without Explicit Conservatism2025

Optimal Perturbation Budget Allocation for Data Poisoning in Offline Reinforcement Learning2025

Adaptive Replay Buffer for Offline-to-Online Reinforcement Learning2025

From Static Constraints to Dynamic Adaptation: Sample-Level Constraint Relaxation for Offline-to-Online Reinforcement Learning2025

Diffusion Policies with Value-Conditional Optimization for Offline Reinforcement Learning2025

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning2025

Quantile Q-Learning: Revisiting Offline Extreme Q-Learning with Quantile Regression2025

One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow2025

Enhancing Robustness of Offline Reinforcement Learning Under Data Corruption via Sharpness-Aware Minimization2025

ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts2025

Offline Reinforcement Learning with Generative Trajectory Policies2025

Human-in-the-Loop Bandwidth Estimation for Quality of Experience Optimization in Real-Time Video Communication2025

What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?2025

Diffusion Policies with Offline and Inverse Reinforcement Learning for Promoting Physical Activity in Older Adults Using Wearable Sensors2025

DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions2025

Unleashing Flow Policies with Distributional Critics2025

Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption2025

Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation2025

One-Step Flow Q-Learning: Addressing the Diffusion Policy Bottleneck in Offline Reinforcement Learning2025

Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning2025

Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning2025

Online Pre-Training for Offline-to-Online Reinforcement Learning2025

Consistency Trajectory Planning: High-Quality and Efficient Trajectory Optimization for Offline Model-Based Reinforcement Learning2025

Should We Ever Prefer Decision Transformer for Offline Reinforcement Learning?2025

Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps2025

From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning2025

Belief-Based Offline Reinforcement Learning for Delay-Robust Policy Optimization2025

BiTrajDiff: Bidirectional Trajectory Generation with Diffusion Models for Offline Reinforcement Learning2025

Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood2025

Policy-Based Trajectory Clustering in Offline Reinforcement Learning2025

MOORL: A Framework for Integrating Offline-Online Reinforcement Learning2025

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization2025

Accelerating Residual Reinforcement Learning with Uncertainty Estimation2025

TROFI: Trajectory-Ranked Offline Inverse Reinforcement Learning2025

Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning2025

Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach2025

Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning2025

Imagination-Limited Q-Learning for Offline Reinforcement Learning2025

Diffusion Self-Weighted Guidance for Offline Reinforcement Learning2025

Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL2025

Decision SpikeFormer: Spike-Driven Transformer for Decision Making2025

VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning2025

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning2025

Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation2025

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network2025

Flow Q-Learning2025

Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning2025

Habitizing Diffusion Planning for Efficient and Effective Decision Making2025

M$^3$PC: Test-time Model Predictive Control for Pretrained Masked Trajectory Model2024

SR-Reward: Taking The Path More Traveled2025

DRDT3: Diffusion-Refined Decision Test-Time Training Model2025

PIQL: Projective Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning2025

SAMG: Offline-to-Online Reinforcement Learning via State-Action-Conditional Offline Model Guidance2024

Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model2024

Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning2024

Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling2024 · 29 cites

Q-value Regularized Transformer for Offline Reinforcement Learning2024 · 4 cites

KAN v.s. MLP for Offline Reinforcement Learning2024 · 2 cites

NetworkGym: Reinforcement Learning Environments for Multi-Access Traffic Management in Network Simulation2024 · 2 cites

Simple Ingredients for Offline Reinforcement Learning2024 · 1 cites

Reinformer: Max-Return Sequence Modeling for Offline RL2024 · 1 cites

Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses2024 · 1 cites

Diffusion Policies creating a Trust Region for Offline Reinforcement Learning2024 · 1 cites

In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought2024 · 1 cites

Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning2024 · 1 cites

A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective2024

Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning2024

Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning2024

Offline Reinforcement Learning with Domain-Unlabeled Data2024

Improving Offline Reinforcement Learning with Inaccurate Simulators2024

Task-agnostic Decision Transformer for Multi-type Agent Control with Federated Split Training2024

State-Constrained Offline Reinforcement Learning2024

AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization2024

Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models2024

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning2024

UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning2024

Strategically Conservative Q-Learning2024

Stabilizing Extreme Q-learning by Maclaurin Expansion2024

CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning2024

DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning2024

Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning2024

SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning2024

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies2024

Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning2024

Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens2024

Rethinking Optimal Transport in Offline Reinforcement Learning2024

Offline Behavior Distillation2024

Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning2024

Hypercube Policy Regularization Framework for Offline Reinforcement Learning2024

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning2024

Enhancing Decision Transformer with Diffusion-Based Trajectory Branch Generation2024

Are Expressive Models Truly Necessary for Offline RL?2024

Goal-Conditioned Data Augmentation for Offline Reinforcement Learning2024

Diffusion Models as Optimizers for Efficient Planning in Offline RL2024

D4RL dataset — papers, benchmarks & downloads · Reinforcement Learning