DAPO

Emerging

2papers using it

2026first seen

DAPO++ is a newly curated Reinforcement Learning from Verifiable Rewards (RLVR) dataset designed to evaluate dataset quality and performance by providing a decontaminated training dataset with concentrated learning signals.

🔎 Find this dataset

Papers using DAPO (2)

RLVR Datasets and Where to Find Them: Tracing Data Lineage for Better Training Data2026

QuRL: Efficient Reinforcement Learning with Quantized Rollout2026