GSM8K gsm8k Leaderboard

#	Model	Accuracy	Paper
1	Beyond KL Divergence: Policy Optimization With Flexible Bregman Divergences For LLM Reasoning	86.70	—
2	AGPO: Adaptive Group Policy Optimization with Dual Statistical Feedback	67.30	—
3	Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks	12.16	—

GSM8K gsm8k Leaderboard