← all datasets

SWE-bench

Emerging

6papers using it

2024first seen

🔎 Find this dataset

Papers using SWE-bench (6)

The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management2025

SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks2025

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments2025

SWE-bench Goes Live!2025

ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases2025

SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications2024

SWE-bench — datasets — llm-papers