Minerval

Emerging

10papers using it

2025first seen

The 'Minerval' dataset/benchmark is used to evaluate the effectiveness of reinforcement learning strategies in enhancing the reasoning abilities of large language models, particularly in tasks that require long chain-of-thought generation.

🔎 Find this dataset

Papers using Minerval (10)

RLPR: Extrapolating RLVR to General Domains without Verifiers2025 · 69 cites

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model2025 · 10 cites

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play2026

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling2026

Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs2026

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning2026

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization2026

Transformation-Augmented GRPO for Enhancing Exploration in Reasoning of Large Language Models2026

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning2025

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Intervention2025