Awesome Papers

Papers

Group Sequence Policy Optimization (2025)
Chujie Zheng et al.
24.25
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
DeepSeek-AI et al.
21.94
Transfer Learning In Deep Reinforcement Learning: A Survey (2020)
Zhuangdi Zhu, Kaixiang Lin, Anil K. Jain, et al.
20.93
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (2025)
Yang Yue et al.
16.51
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning (2025)
Runqi Qiao and Qiuna Tan and Peiqing Yang and Yanzi Wang and Xiaowan Wang and Enhui Wan and Sitong Zhou and Guanting Dong and Yuchen Zeng and Yida Xu and Jie Wang and Chong Sun and Chen Li and Honggang Zhang
16.25
Explainable Deep Reinforcement Learning: State Of The Art And Challenges (2023)
George A. Vouros
15.80
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards (2026)
Kaiyi Zhang et al.
15.70
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild (2025)
Weihao Zeng et al.
15.35
Reinforcement Learning-assisted Evolutionary Algorithm: A Survey And Research Opportunities (2023)
Yanjie Song, Yutong Wu, Yangyang Guo, et al.
15.03
Control Synthesis from Linear Temporal Logic Specifications using Model-Free Reinforcement Learning (2019)
Alper Kamil Bozkurt et al.
14.93
Reinforcement Learning Algorithms: An Overview And Classification (2022)
Fadi Almahamid, Katarina Grolinger
14.73
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization (2025)
Jingyi Zhang et al.
14.10
Intelligent Problem-solving As Integrated Hierarchical Reinforcement Learning (2022)
Manfred Eppe, Christian Gumbsch, Matthias Kerzel, et al.
14.02
ToolRL: Reward is All Tool Learning Needs (2025)
Cheng Qian et al.
13.82
GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning (2025)
GLM-V Team: Wenyi Hong et al.
13.67
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning (2025)
Huatong Song et al.
13.66
On-line Policy Improvement using Monte-Carlo Search (2025)
Gerald Tesauro et al.
13.41
Toward Interpretable Deep Reinforcement Learning With Linear Model U-trees (2018)
Guiliang Liu, Oliver Schulte, Wang Zhu, et al.
13.05
Deep Hierarchical Reinforcement Learning Algorithm In Partially Observable Markov Decision Processes (2018)
Le Pham Tuyen, Ngo Anh Vien, Abu Layek, et al.
12.87
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model (2025)
Hengguang Zhou and Xirui Li and Ruochen Wang and Minhao Cheng and Tianyi Zhou and Cho-Jui Hsieh
12.71
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT (2025)
Dongzhi Jiang et al.
12.61
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories (2026)
Zhepei Wei et al.
12.56
Explainability In Deep Reinforcement Learning, A Review Into Current Methods And Applications (2022)
Thomas Hickling, Abdelhafid Zenati, Nabil Aouf, et al.
12.33
CURIOUS: Intrinsically Motivated Modular Multi-Goal Reinforcement Learning (2018)
C\'edric Colas et al.
12.25
Combining Evolution And Deep Reinforcement Learning For Policy Search: A Survey (2022)
Olivier Sigaud
12.25
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning (2025)
Yuxiao Qu et al.
12.23
Return-based Contrastive Representation Learning For Reinforcement Learning (2021)
Guoqing Liu, Chuheng Zhang, Li Zhao, et al.
12.17
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners (2025)
Yuhang Liu et al.
12.15
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models (2025)
Zhipeng Chen et al.
12.00
An Information-theoretic Perspective On Intrinsic Motivation In Reinforcement Learning: A Survey (2022)
Arthur Aubret, Laetitia Matignon, Salima Hassas
11.93
Agentic Reinforced Policy Optimization (2025)
Guanting Dong et al.
11.88
Local And Global Explanations Of Agent Behavior: Integrating Strategy Summaries With Saliency Maps (2020)
Tobias Huber, Katharina Weitz, Elisabeth André, et al.
11.85
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning (2025)
Haozhan Li et al.
11.71
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting (2025)
Wenhao Zhang et al.
11.20
Improving Interactive Reinforcement Learning: What Makes A Good Teacher? (2019)
Francisco Cruz, Sven Magg, Yukie Nagai, et al.
11.19
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination (2025)
Mingqi Wu et al.
11.14
RLPR: Extrapolating RLVR to General Domains without Verifiers (2025)
Tianyu Yu et al.
11.12
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning (2025)
Yixuan Even Xu et al.
11.07
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards (2026)
Nianyi Lin et al.
11.07
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents (2026)
Bowen Wang et al.
10.88
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking (2026)
Qiang Zhang et al.
10.34
Alphaseq: Sequence Discovery With Deep Reinforcement Learning (2018)
Yulin Shao, Soung Chang Liew, Taotao Wang
10.07
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO (2025)
Jinyoung Park et al.
10.00
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning (2025)
Haozhen Zhang et al.
9.94
Measuring And Characterizing Generalization In Deep Reinforcement Learning (2018)
Sam Witty, Jun Ki Lee, Emma Tosch, et al.
9.76
Defeating the Training-Inference Mismatch via FP16 (2025)
Penghui Qi et al.
9.74
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams (2026)
Zewen Liu et al.
9.73
RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents (2025)
Zijing Zhang et al.
9.64
Tree Search for LLM Agent Reinforcement Learning (2025)
Yuxiang Ji et al.
9.62
Unsupervised Representation Learning In Deep Reinforcement Learning: A Review (2022)
Nicolò Botteghi, Mannes Poel, Christoph Brune
9.59