Qwen-3-8B-base

Emerging

5papers using it

2025first seen

The 'Qwen-3-8B-Base' is a benchmark dataset used to evaluate the performance and reasoning capabilities of large language model agents in the context of self-evolution and tool integration.

🔎 Find this dataset

Papers using Qwen-3-8B-base (5)

Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL2025 · 2 cites

fg-expo: Frontier-guided exploration-prioritized policy optimization via adaptive kl and gaussian curriculum2026

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning2025

OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning2025

Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning2025