Awesome Policy Gradient

Single-Rollout Asynchronous Optimization for Agentic Reinforcement Learning (2026)

Zhenyu Hou et al.

10.35

Convergence Of Policy Gradient Methods For Finite-horizon Exploratory Linear-quadratic Control Problems (2022)

Michael Giegrich, Christoph Reisinger, Yufei Zhang

9.23

Compatible Natural Gradient Policy Search (2019)

Joni Pajarinen, Hong Linh Thai, Riad Akrour, et al.

9.23

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning (2025)

Zhepei Wei et al.

7.52

SimKO: Simple Pass@K Policy Optimization (2025)

Ruotian Peng et al.

6.80

Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning (2026)

Chenhao Dang et al.

6.43

RoboDojo: A Unified Sim-and-Real Benchmark for Comprehensive Evaluation of Generalist Robot Manipulation Policies (2026)

Tianxing Chen et al.

5.88

Playing 20 Question Game with Policy-Based Reinforcement Learning (2018)

Huang Hu et al.

5.24

Conformal Policy Learning For Sensorimotor Control Under Distribution Shifts (2023)

Huang Huang, Satvik Sharma, Antonio Loquercio, et al.

5.24

Active-GRPO: Adaptive Imitation and Self-Improving Reasoning for Molecular Optimization (2026)

Xuefeng Liu et al.

5.01

Cross-Platform Control for Autonomous Surface Vehicles via Adaptive Reinforcement Learning (2026)

Ruiheng Jiang et al.

5.01

Gradient-Based Speech-to-Text Alignment for Any ASR Model: From CTC to Speech LLMs (2026)

Albert Zeyer et al.

5.01

Geometric--Nongeometric Optimizer Calculus: A Modular Language for Reachable Gradient Methods (2026)

Zavier Li

5.01

Diverse Exploration Via Conjugate Policies For Policy Gradient Methods (2019)

Andrew Cohen, Xingye Qiao, Lei Yu, et al.

4.52

Verifiable Rewards for Calibrated Probabilistic Forecasting (2026)

Sadanand Singh et al.

4.39

Learning Gait-Aware Quadruped Locomotion with Temporal Logic Specifications (2026)

Merve Atasever et al.

4.39

Flow-Map GRPO: Reinforcement Learning for Few-Step Flow-Map Generators via Anchored Stochastic Composition (2026)

Zhiqi Li et al.

4.39

Don't Let Gains FADE: Breaking Down Policy Gradient Weights in RL (2026)

Juliette Decugis et al.

4.39

Wind-Aware Reinforcement Learning Control of a Small Quadrotor Using Learned Onboard Wind Estimation in Simulated Atmospheric Turbulence (2026)

Abdullah Al Tasim et al.

4.39

Learning the Supports for Categorical Critic in Reinforcement Learning (2026)

Jen-Yen Chang et al.

4.39

Weak-to-Strong Generalization via Direct On-Policy Distillation (2026)

Shiyuan Feng et al.

4.39

Ad Headline Generation using Self-Critical Masked Language Model (2026)

Yashal Shakti Kanungo et al.

4.39

Behavior Leverage Imbalance in Multi-Teacher On-Policy Distillation (2026)

Jiabin Shen et al.

4.39

GIFT: Geometry-Informed Low-precision Gradient Communication for LLM Pretraining (2026)

Jieying Wang et al.

4.39

Gradient-free Riemannian Langevin Sampler (2026)

Ricardo Baptista et al.

4.39

Selective Timestep Weighting and Advantage-Based Replay for Sample-Efficient Diffusion RLHF (2026)

Eric Zhu et al.

4.39

Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response (2026)

Jose Luis Lima de Jesus Silva

4.33

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning (2026)

Ayoub Belouadah et al.

4.33

Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning (2026)

Pengxin Wang et al.

4.33

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning (2026)

Xiaoyue Xu et al.

4.33

Weight-Space Geometry of Offline Reasoning Training (2026)

Aleksandr Nikolich et al.

4.33

KLip-PPO: A per-sample KL perspective on PPO-Clip (2026)

Riccardo Colletti et al.

4.33

Learning to Trigger: Reinforcement Learning at the Large Hadron Collider (2026)

Zixin Ding et al.

4.33

Reinforcement Learning for Computer-Use Agents with Autonomous Evaluation (2026)

Marta Sumyk et al.

4.33

LaGO: Latent Action Guidance for Online Reinforcement Learning (2026)

Kuan-Yen Liu et al.

4.33

ExTra: Exploratory Trajectory Optimization for Language Model Reinforcement Learning (2026)

Wenyang Hu et al.

4.33

Bias-Controlled Primal-Dual Natural Actor-Critic: Optimal Rates for Constrained Multi-Objective Average-Reward RL (2026)

Ankur Naskar et al.

4.33

Learning with a Single Rollout via Monte Carlo Pass@k Critic (2026)

Fengdi Che et al.

4.33

Low Variance Trust Region Optimization with Independent Actors and Sequential Updates in Cooperative Multi-agent Reinforcement Learning (2026)

Bang Giang Le et al.

4.33

Power-Budgeted Underwater Vehicle Control via Constrained Reinforcement Learning (2026)

Yinuo Wang et al.

4.33

Memory-Efficient Policy Libraries with Low-Rank Adaptation in Reinforcement Learning (2026)

Samuel Valland Lyngset et al.

4.33

Semantic Consistency Policy Optimization for Reinforcement Learning of LLM Agents (2026)

Peng Xu et al.

4.33

FORCE: Efficient VLA Reinforcement Fine-Tuning via Value-Calibrated Warm-up and Self-Distillation (2026)

Shuyi Zhang et al.

4.33

Regularized Reward-Punishment Reinforcement Learning (2026)

Jiexin Wang et al.

4.33

TAPE: Leveraging Agent Topology For Cooperative Multi-agent Policy Gradient (2023)

Xingzhou Lou, Junge Zhang, Timothy J. Norman, et al.

3.58

Lightweight Safe Reinforcement Learning for End-to-End UAV Navigation (2026)

Shenghui Zhang et al.

3.51

E-MRL: Cross-view Aligned Evidence-driven Multimodal Reinforcement Learning for Reliable 3D Tumor Analysis (2026)

Sijing Li et al.

3.45

Solving Markov Decision Processes with Future Information via MPC (2026)

Shambhuraj Sawant et al.

3.45

Retroactive Advantage Correction: Closed-Form V-Trace Bias Correction for Delay-Aware RLHF (2026)

Arnav Raj

3.45

Statistical Decision Theory with Counterfactual Loss (2025)

Benedikt Koch et al.

2.91

Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards (2025)

Yuxin Zhang et al.

2.82

RIDGECUT: Learning Graph Partitioning with Rings and Wedges (2025)

Qize Jiang et al.

2.29

Analysis Of Off-policy Multi-step Td-learning With Linear Function Approximation (2024)

Donghwan Lee

2.26

Recursive Least Squares Policy Control With Echo State Network (2022)

Chunyuan Zhang, Chao Liu, Qi Song, et al.

2.26

Augmenting Policy Learning With Routines Discovered From A Single Demonstration (2020)

Zelin Zhao, Chuang Gan, Jiajun Wu, et al.

2.26

How Log-barrier Helps Exploration In Policy Optimization (2026)

Leonardo Cesani, Matteo Papini, Marcello Restelli

1.94

A Policy-driven DRL Framework For System-level Tradeoff Control In Nr-u/wi-fi Coexistence (2026)

Po-Heng Chou, Yi-Fang Yu, Shou-Yu Chen, et al.

1.94

CAPO: Counterfactual Credit Assignment In Sequential Cooperative Teams (2026)

Shripad Deshmukh, Jayakumar Subramanian, Raghavendra Addanki, et al.

1.94

Robust Adversarial Policy Optimization Under Dynamics Uncertainty (2026)

Mintae Kim, Koushil Sreenath

1.94

Stabilizing The Q-gradient Field For Policy Smoothness In Actor-critic (2026)

Jeong Woon Lee, Kyoleen Kwak, Daeho Kim, et al.

1.94

Awesome Policy Gradient

Key papers

Policy Gradient

Awesome Policy Gradient

Key papers