Awesome Papers

Papers

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
DeepSeek-AI et al.
21.94
Arcee's Mergekit: A Toolkit For Merging Large Language Models (2024)
Charles Goddard, Shamane Siriwardhana, Malikeh Ehghaghi, et al.
18.99
Toward Generalist Autonomous Research via Hypothesis-Tree Refinement (2026)
Jiajie Jin et al.
14.49
A French Corpus Annotated for Multiword Expressions with Adverbial Function (2026)
Eric Laporte et al.
14.14
MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling (2026)
Jiacheng Chen et al.
13.06
Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution (2026)
Liliana Hotsko et al.
12.93
SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks (2026)
Hongcheng Gao et al.
12.37
Mellum2 Technical Report (2026)
Marko Kojic et al.
12.03
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories (2026)
Kevin Qinghong Lin et al.
11.33
Qwen3 Technical Report (2025)
An Yang, Anfeng Li, Baosong Yang, et al.
11.05
DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off (2026)
Xiaofan Li et al.
10.80
MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery (2026)
Shangheng Du et al.
10.72
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents (2026)
Ye Yuan et al.
10.15
Doremi: Grounding Language Model By Detecting And Recovering From Plan-execution Misalignment (2023)
Yanjiang Guo, Yen-Jen Wang, Lihan Zha, et al.
9.92
Unsupervised Skill Discovery for Agentic Data Analysis (2026)
Zhisong Qiu et al.
9.90
Adaptive-solver Framework For Dynamic Strategy Selection In Large Language Model Reasoning (2023)
Jianpeng Zhou, Wanjun Zhong, Yanlin Wang, et al.
9.50
No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions (2026)
Xu Yang et al.
9.48
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions (2026)
Chuanyang Jin et al.
9.41
LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling (2026)
Jiarui Zhao et al.
9.35
Low-code LLM: Graphical User Interface Over Large Language Models (2023)
Yuzhe Cai, Shaoguang Mao, Wenshan Wu, et al.
9.07
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? (2026)
Tongxu Luo et al.
8.83
Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning (2026)
Jiayu Yang et al.
8.64
Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training (2026)
Yuanda Xu et al.
8.60
Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders (2026)
Yi Jing et al.
8.60
Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior (2026)
Rafal Kocielnik et al.
8.24
N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization (2026)
Xukun Zhu et al.
7.37
M\"OVE: A Holistic LLM Benchmark for the German Public Sector (2026)
Camilla Dalerci et al.
7.37
MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control (2026)
Yuchi Wang et al.
7.04
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation (2025)
Jingjing Jiang et al.
7.00
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients (2026)
Byung-Kwan Lee et al.
6.95
Frames2LoRA: Parametric Video Internalization for Vision-Language Models (2026)
Manan Suri et al.
6.75
Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models (2026)
Changyue Wang et al.
6.75
Future-KL Regularized GRPO: Process-Level Credit Assignment from $f$-Divergence Regularization (2026)
Jiarui Yao et al.
6.67
Multi-Agent Causal Discovery Using Large Language Models (2024)
Hao Duong Le et al.
6.56
Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning (2026)
Zilin Xiao et al.
6.52
ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces (2026)
Jinu Lee et al.
6.50
Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review (2026)
Xinyu Zhao et al.
6.50
Multi-Turn Code Generation Through Single-Step Rewards (2025)
Arnav Kumar Jain and Gonzalo Gonzalez-Pumariega and Wayne Chen and Alexander M Rush and Wenting Zhao and Sanjiban Choudhury
6.43
Rewarding The Scientific Process: Process-level Reward Modeling For Agentic Data Analysis (2026)
Zhisong Qiu, Shuofei Qiao, Kewei Xu, et al.
5.90
Adversarial Creation and Detection of AI-Generated Social Bot Content (2026)
Mykola Trokhymovych et al.
5.89
Trait, Not State: The Durability of Reading Identity in Social Highlighting (2026)
Kazuki Nakayashiki et al.
5.89
SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia (2026)
Peerat Limkonchotiwat et al.
5.88
Small LLMs: Pruning vs. Training from Scratch (2026)
Yufeng Xu et al.
5.88
Cartridges at Scale: Training Modular KV Caches over Large Document Collections (2026)
Momchil Hardalov et al.
5.49
Leveraging Social Media Data for COVID-19 Studies (2026)
Nur Hafieza Ismail et al.
5.49
Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants (2026)
Shuxian Fan et al.
5.49
How Fine-Grained Should a RAG Benchmark Be? A Hierarchical Framework for Synthetic Question Generation (2026)
Chase M. Fensore et al.
5.49
When Does Mixing Help? Analyzing Query Embedding Interpolation in Multilingual Dense Retrieval (2026)
Tongyao Zhu et al.
5.49
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions (2026)
Peixian Zhou et al.
5.46
TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning (2025)
Jinyang Wu and Chonghua Liao and Mingkuan Feng and Shuai Zhang and Zhengqi Wen and Haoran Luo and Ling Yang and Huazhe Xu and Jianhua Tao
5.39