Awesome Papers

Papers

Sigmoid-weighted Linear Units For Neural Network Function Approximation In Reinforcement Learning (2017)
Stefan Elfwing, Eiji Uchibe, Kenji Doya
24.15
Distributional Reinforcement Learning With Quantile Regression (2017)
Will Dabney, Mark Rowland, Marc G. Bellemare, et al.
19.20
Using Human Feedback To Fine-tune Diffusion Models Without Any Reward Model (2023)
Kai Yang, Jian Tao, Jiafei Lyu, et al.
17.39
On the regularization of Wasserstein GANs (2017)
Henning Petzka et al.
15.83
Reinforcement Learning In Economics And Finance (2020)
Arthur Charpentier, Romuald Elie, Carl Remlinger
14.73
Reinforcement Learning With Perturbed Rewards (2018)
Jingkang Wang, Yang Liu, Bo Li
13.74
T-soft Update Of Target Network For Deep Reinforcement Learning (2020)
Taisuke Kobayashi, Wendyam Eric Lionel Ilboudo
13.39
Data-efficient Domain Randomization With Bayesian Optimization (2020)
Fabio Muratore, Christian Eilers, Michael Gienger, et al.
13.28
Measurement-based Adaptation Protocol With Quantum Reinforcement Learning (2018)
F. Albarrán-Arriagada, J. C. Retamal, E. Solano, et al.
12.93
Deep Hierarchical Reinforcement Learning Algorithm In Partially Observable Markov Decision Processes (2018)
Le Pham Tuyen, Ngo Anh Vien, Abu Layek, et al.
12.87
Deep Reinforcement Learning For Adaptive Learning Systems (2020)
Xiao Li, Hanchen Xu, Jinming Zhang, et al.
12.54
Convergence Proof For Actor-critic Methods Applied To PPO And RUDDER (2020)
Markus Holzleitner, Lukas Gruber, José Arjona-Medina, et al.
11.67
Reward Maximisation Through Discrete Active Inference (2020)
Lancelot da Costa, Noor Sajid, Thomas Parr, et al.
10.74
Action Candidate Driven Clipped Double Q-learning For Discrete And Continuous Action Tasks (2022)
Haobo Jiang, Jin Xie, Jian Yang
10.61
The Utility Of Sparse Representations For Control In Reinforcement Learning (2018)
Vincent Liu, Raksha Kumaraswamy, Lei Le, et al.
10.48
Evolutionary Reinforcement Learning Of Dynamical Large Deviations (2019)
Stephen Whitelam, Daniel Jacobson, Isaac Tamblyn
10.21
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models (2026)
Mingze Wang et al.
10.00
A Comparative Analysis Of Expected And Distributional Reinforcement Learning (2019)
Clare Lyle, Pablo Samuel Castro, Marc G. Bellemare
9.76
Measuring And Characterizing Generalization In Deep Reinforcement Learning (2018)
Sam Witty, Jun Ki Lee, Emma Tosch, et al.
9.76
Generalized Population-based Training For Hyperparameter Optimization In Reinforcement Learning (2024)
Hui Bai, Ran Cheng
9.59
Estimating Scale-invariant Future In Continuous Time (2018)
Zoran Tiganj, Samuel J. Gershman, Per B. Sederberg, et al.
9.59
Bias-reduced Hindsight Experience Replay With Virtual Goal Prioritization (2019)
Binyamin Manela, Armin Biess
9.41
Don't Start From Scratch: Behavioral Refinement Via Interpolant-based Policy Diffusion (2024)
Kaiqi Chen, Eugene Lim, Kelvin Lin, et al.
9.28
Towards Applicable Reinforcement Learning: Improving The Generalization And Sample Efficiency With Policy Ensemble (2022)
Zhengyu Yang, Kan Ren, Xufang Luo, et al.
9.23
Learning Sparse Representations In Reinforcement Learning With Sparse Coding (2017)
Lei Le, Raksha Kumaraswamy, Martha White
8.82
Rethinking The Discount Factor In Reinforcement Learning: A Decision Theoretic Approach (2019)
Silviu Pitis
8.60
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model (2020)
Gen Li et al.
7.83
Computably Continuous Reinforcement-learning Objectives Are Pac-learnable (2023)
Cambridge Yang, Michael Littman, Michael Carbin
7.81
A Definition Of Continual Reinforcement Learning (2023)
David Abel, André Barreto, Benjamin van Roy, et al.
7.50
Renewal Monte Carlo: Renewal Theory Based Reinforcement Learning (2018)
Jayakumar Subramanian, Aditya Mahajan
7.50
Self Punishment And Reward Backfill For Deep Q-learning (2020)
Mohammad Reza Bonyadi, Rui Wang, Maryam Ziaei
7.16
Bayesian Reinforcement Learning With Limited Cognitive Load (2023)
Dilip Arumugam, Mark K. Ho, Noah D. Goodman, et al.
6.77
Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across Mdps (2021)
Ezgi Korkmaz
6.77
Adversary Agnostic Robust Deep Reinforcement Learning (2020)
Xinghua Qu, Yew-Soon Ong, Abhishek Gupta, et al.
6.77
Reinforcement Learning In Pomdps With Memoryless Options And Option-observation Initiation Sets (2017)
Denis Steckelmacher, Diederik M. Roijers, Anna Harutyunyan, et al.
6.77
A Unified Approach For Multi-step Temporal-difference Learning With Eligibility Traces In Reinforcement Learning (2018)
Long Yang, Minhao Shi, Qian Zheng, et al.
6.77
Probabilistic Shielding for Safe Reinforcement Learning (2025)
Edwin Hamel-De le Court et al.
6.47
Greedy Sampling Is Provably Efficient for RLHF (2025)
Di Wu et al.
6.34
Nonparametric Bellman Mappings For Reinforcement Learning: Application To Robust Adaptive Filtering (2024)
Yuki Akiyama, Minh Vu, Konstantinos Slavakis
6.34
Post Reinforcement Learning Inference (2023)
Vasilis Syrgkanis et al.
6.28
$O(1/k)$ Finite-Time Bound for Non-Linear Two-Time-Scale Stochastic Approximation (2025)
Siddharth Chandak
6.28
Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent (2026)
Ahanaf Hasan Ariq
5.89
Edge of Stability Selectively Shapes Learning Across the Data Distribution (2026)
Shauna Kwag et al.
5.89
When Do Fewer Coordinates Suffice in DP-SGD? (2026)
Huiqi Zhang et al.
5.89
Revisiting Privacy Amplification by Subsampling in Selective Release DPSGD (2026)
Xiaobo Huang et al.
5.89
When Both Layers Learn: Training Dynamics of Representing Linear Models via ReLU Networks (2026)
Berk Tinaz et al.
5.89
Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning (2026)
Damian Lebied\'z et al.
5.89
Worker Utility as Hysteresis: A Preisach Model of Transaction Acceptance in Gig Labour Markets (2026)
Piotr Frydrych
5.89
Identifying Gems from Roman RAPIDly (2026)
Karan Gandhi et al.
5.89
Successor Feature Sets: Generalizing Successor Representations Across Policies (2021)
Kianté Brantley, Soroush Mehri, Geoffrey J. Gordon
5.84