← all datasets

SWE-bench Verified

Canonical

40papers using it

2025first seen

🔎 Find this dataset

Papers using SWE-bench Verified (40)

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry2026

Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills2026

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness2026

Decentralized Multi-Agent Systems with Shared Context2026

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context2026

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws2026

The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents2026

Open-SWE-Traces: Advancing Dual-Mode Multilingual Distillation for Software Engineering Agents2026

Long Live the Librarian! A Persistent Search Sub-Agent for Energy-Efficient Multi-Agent Software Engineering Systems2026

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses2026 · 1 cites

Hybrid-gym: Training Coding Agents To Generalize Across Tasks2026

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory2026

Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages2026

ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents2026

Automated Benchmark Auditing for AI Agents and Large Language Models2026

CoMem: Context Management with A Decoupled Long-Context Model2026

Swe-bench-cl: Continual Learning For Coding Agents2025

Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime2026

Swe-prot\'eg\'e: Learning To Selectively Collaborate With An Expert Unlocks Small Language Models As Software Engineering Agents2026

Evaluating Plan Compliance In Autonomous Programming Agents2026

Group-evolving Agents: Open-ended Self-improvement Via Experience Sharing2026

CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing2026

Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents2026

Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents2026

SWE-Edit: Rethinking Code Editing for Efficient SWE-Agent2026

Coherence Collapse: Diagnosing Why Code Agents Fail After Reaching the Right Code2026

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents2026

SWE-Universe: Scale Real-World Verifiable Environments to Millions2026

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training2026

EvoMAS: Evolutionary Generation of Multi-Agent Systems2026

Pull Requests as a Training Signal for Repo-Level Code Editing2026

Toward Training Superintelligent Software Agents through Self-Play SWE-RL2025

Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement2025

R2e-gym: Procedural Environments And Hybrid Verifiers For Scaling Open-weights SWE Agents2025

Putting It All Into Context: Simplifying Agents With Lclms2025

A Self-improving Coding Agent2025

Co-patcher: Collaborative Software Patching With Component(s)-specific Small Reasoning Models2025

SWE-EVO: Benchmarking Coding Agents In Long-horizon Software Evolution Scenarios2025

Guided Search Strategies In Non-serializable Environments With Applications To Software Engineering Agents2025

Establishing Best Practices For Building Rigorous Agentic Benchmarks2025