Awesome Papers

Papers

Group Sequence Policy Optimization (2025)
Chujie Zheng et al.
24.25
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
DeepSeek-AI et al.
21.94
Towards Accurate Model Selection in Deep Unsupervised Domain Adaptation (2026)
Kaichao You et al.
19.60
Quantum-enhanced Machine Learning (2016)
Vedran Dunjko, Jacob M. Taylor, Hans J. Briegel
19.33
Kimi Linear: An Expressive, Efficient Attention Architecture (2025)
Kimi Team: Yu Zhang et al.
18.62
DAPO: An Open-Source LLM Reinforcement Learning System at Scale (2025)
Qiying Yu et al.
18.39
Using Human Feedback To Fine-tune Diffusion Models Without Any Reward Model (2023)
Kai Yang, Jian Tao, Jiafei Lyu, et al.
17.39
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning (2025)
Runqi Qiao and Qiuna Tan and Peiqing Yang and Yanzi Wang and Xiaowan Wang and Enhui Wan and Sitong Zhou and Guanting Dong and Yuchen Zeng and Yida Xu and Jie Wang and Chong Sun and Chen Li and Honggang Zhang
16.25
On the regularization of Wasserstein GANs (2017)
Henning Petzka et al.
15.83
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild (2025)
Weihao Zeng et al.
15.35
Control Synthesis from Linear Temporal Logic Specifications using Model-Free Reinforcement Learning (2019)
Alper Kamil Bozkurt et al.
14.93
Causal Machine Learning: A Survey and Open Problems (2022)
Jean Kaddour et al.
14.66
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization (2025)
Jingyi Zhang et al.
14.10
Apple Intelligence Foundation Language Models (2024)
Tom Gunter et al.
13.84
ToolRL: Reward is All Tool Learning Needs (2025)
Cheng Qian et al.
13.82
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning (2026)
Guochao Jiang et al.
13.81
Reinforcement Learning With Perturbed Rewards (2018)
Jingkang Wang, Yang Liu, Bo Li
13.74
GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning (2025)
GLM-V Team: Wenyi Hong et al.
13.67
On-line Policy Improvement using Monte-Carlo Search (2025)
Gerald Tesauro et al.
13.41
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding (2026)
Shihao Wang et al.
13.37
Toward Interpretable Deep Reinforcement Learning With Linear Model U-trees (2018)
Guiliang Liu, Oliver Schulte, Wang Zhu, et al.
13.05
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond (2025)
Liang Wen et al.
12.98
Measurement-based Adaptation Protocol With Quantum Reinforcement Learning (2018)
F. Albarrán-Arriagada, J. C. Retamal, E. Solano, et al.
12.93
Deep Hierarchical Reinforcement Learning Algorithm In Partially Observable Markov Decision Processes (2018)
Le Pham Tuyen, Ngo Anh Vien, Abu Layek, et al.
12.87
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model (2025)
Hengguang Zhou and Xirui Li and Ruochen Wang and Minhao Cheng and Tianyi Zhou and Cho-Jui Hsieh
12.71
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT (2025)
Dongzhi Jiang et al.
12.61
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories (2026)
Zhepei Wei et al.
12.56
R-Zero: Self-Evolving Reasoning LLM from Zero Data (2025)
Chengsong Huang et al.
12.39
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning (2025)
Yuxiao Qu et al.
12.23
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? (2026)
Zhangchen Xu et al.
12.17
Return-based Contrastive Representation Learning For Reinforcement Learning (2021)
Guoqing Liu, Chuheng Zhang, Li Zhao, et al.
12.17
MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems (2026)
Xinle Deng et al.
12.15
RL's Razor: Why Online Reinforcement Learning Forgets Less (2025)
Idan Shenfeld et al.
12.11
Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents (2026)
Suji Kim et al.
12.03
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models (2025)
Zhipeng Chen et al.
12.00
Reinforcement Learning in POMDP's via Direct Gradient Ascent (2025)
Jonathan Baxter and Peter L. Bartlett
12.00
Agentic Reinforced Policy Optimization (2025)
Guanting Dong et al.
11.88
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification (2025)
Yongliang Wu et al.
11.83
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning (2025)
Jiaxing Zhao et al.
11.82
Maximum Entropy Semi-Supervised Inverse Reinforcement Learning (2026)
Julien Audiffren et al.
11.81
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning (2025)
Haozhan Li et al.
11.71
Rethinking Memory as Continuously Evolving Connectivity (2026)
Jizhan Fang et al.
11.49
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting (2025)
Wenhao Zhang et al.
11.20
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination (2025)
Mingqi Wu et al.
11.14
RLPR: Extrapolating RLVR to General Domains without Verifiers (2025)
Tianyu Yu et al.
11.12
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning (2025)
Yixuan Even Xu et al.
11.07
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards (2026)
Nianyi Lin et al.
11.07
What Can RL Bring to VLA Generalization? An Empirical Study (2025)
Jijia Liu et al.
11.00
Self-Distillation Enables Continual Learning (2026)
Idan Shenfeld et al.
10.99
JLT: Clean-Latent Prediction in Latent Diffusion Transformers (2026)
Funing Fu et al.
10.98