Qwen-3 8B

Emerging

3papers using it

2026first seen

The 'Qwen-3-8B' dataset/benchmark contains diverse, synthesized agentic tasks derived from real-world tool use, and it is used to evaluate the generalization capabilities of post-training tool-using large language models (LLMs) under varying task and toolset conditions.

🔎 Find this dataset

Papers using Qwen-3 8B (3)

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)2026

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning2026

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use2026