← all datasets

BFCL

Emerging

14papers using it

2026first seen

The BFCL dataset/benchmark is used to evaluate the effectiveness of tool-calling capabilities in large language models, focusing on their ability to retrieve and utilize demonstrations for specific tasks.

🔎 Find this dataset

Papers using BFCL (14)

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning2026

Scaling Agentic Capabilities via Grounded Interaction Synthesis2026

PACT: Privileged Trace Co-Training for Multi-Turn Tool-Use Agents2026

Looking Is Not Picking: An Attention-Segment Account of Tool-Selection Failures in LLM Agents2026

TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing2026

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems2026

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer2026

Boosting Tool-Calling Capabilities of Large Language Models via a Novel In-Context Learning Approach2026

TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments2026

CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution2026

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models2026

Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs2026

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents2026

Linguistic and Argument Diversity in Synthetic Data for Function-Calling Agents2026

BFCL — datasets — ai-agents