What does % resolved mean on SWE-bench Verified?

SWE-bench Verified reports % resolved (%); higher is better. Scores are shown only within SWE-bench Verified and are never averaged with other benchmarks.

What is the top reported SWE-bench Verified score?

Claude Fable 5 has the top reported score on SWE-bench Verified: 95.0% (% resolved).

Why do SWE-bench Verified scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. SWE-bench Verified scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksCoding

SWE-bench Verified

A curated SWE-bench split for evaluating systems that resolve real software engineering issues.

Coding% resolvedHigher is better

Scores About Run this benchmark

What is SWE-bench Verified?

A curated SWE-bench split for evaluating systems that resolve real software engineering issues. evals.report tracks reported SWE-bench Verified scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported SWE-bench Verified score: Claude Fable 5 — 95.0% (% resolved).

Model	Lab	Score↓	Source model	Status	Date
Claude Fable 5	Anthropic	95.0%	Claude Fable 5	Verified	Jun 9, 2026	Details
Claude Mythos Preview	Anthropic	93.9%	Claude Mythos Preview	Unverified	Apr 7, 2026	Details
Claude Opus 4.8	Anthropic	88.6%	Claude Opus 4.8	Verified	May 28, 2026	Details
Claude Opus 4.7	Anthropic	83.5%	Claude Opus 4.7	Official	Apr 16, 2026	Details
Ornith-1.0-397BOpen	DeepReinforce	82.4%	Ornith-1.0-397B	Verified	Jun 25, 2026	Details
Nex-N2-ProOpen	Nex AGI	80.8%	Nex-N2-Pro	Verified	Jun 2, 2026	Details
GPT-5.5	OpenAI	80.6%	GPT-5.5	Official	Apr 23, 2026	Details
DeepSeek V4 ProOpen	DeepSeek	80.6%	DeepSeek V4 Pro Max	Unverified	Apr 24, 2026	Details
MiniMax M2.5Open	MiniMax	80.2%	MiniMax-M2.5	Verified	Feb 12, 2026	Details
DeepSeek V4 FlashOpen	DeepSeek	79.0%	DeepSeek-V4-Flash (Think-Max)	Verified	Apr 24, 2026	Details
MiMo-V2.5-ProOpen	Xiaomi	78.9%	MiMo-V2.5-Pro	Verified	Apr 22, 2026	Details
Claude Opus 4.6	Anthropic	78.7%	Claude Opus 4.6	Official	Feb 5, 2026	Details
MiniMax M2.7Open	MiniMax	78%	MiniMax M2.7	Unverified	Mar 18, 2026	Details
InklingOpen	Thinking Machines Lab	77.6%	Inkling	Verified	Jul 15, 2026	Details
Mistral Medium 3.5	Mistral AI	77.6%	Mistral Medium 3.5	Verified	Apr 28, 2026	Details
GPT-5.4	OpenAI	76.9%	GPT-5.4	Official	Mar 5, 2026	Details
Kimi K2.6Open	Moonshot AI	76.7%	Kimi K2.6	Official	Apr 20, 2026	Details
Claude Opus 4.5	Anthropic	76.7%	Claude Opus 4.5	Official	Nov 24, 2025	Details
Qwen 3.6 Max Preview	Alibaba / Qwen	76.7%	Qwen 3.6 Max (Preview)	Official	Apr 20, 2026	Details
Doubao Seed 2.0 Pro	ByteDance	76.5%	Seed 2.0 Pro	Verified	Feb 14, 2026	Details
Doubao Seed 2.0 Code	ByteDance	76.5%	Seed 2.0 Code (shares Pro coding benchmarks)	Unverified	Feb 14, 2026	Details
Step 3.7 FlashOpen	StepFun	76.5%	Step 3.7 Flash	Verified	May 29, 2026	Details
Qwen3.5-397B-A17BOpen	Alibaba / Qwen	76.4%	Qwen3.5-397B-A17B	Unverified	Feb 16, 2026	Details
Gemini 3.1 Pro Preview	Google DeepMind	75.6%	Gemini 3.1 Pro	Official	Feb 19, 2026	Details
Gemini 3 Flash	Google DeepMind	75.4%	Gemini 3 Flash	Official	Dec 17, 2025	Details
Claude Sonnet 4.6	Anthropic	75.2%	Claude Sonnet 4.6	Official	Feb 17, 2026	Details
GPT-5.3-Codex	OpenAI	74.8%	GPT-5.3 Codex	Official	Feb 5, 2026	Details
Nex-N2-miniOpen	Nex AGI	74.4%	Nex-N2-mini	Verified	Jun 2, 2026	Details
GLM-5.1Open	Z.ai	74.2%	GLM-5.1	Official	Apr 7, 2026	Details
Kimi K2.5Open	Moonshot AI	73.8%	Kimi K2.5	Official	Jan 27, 2026	Details
GPT-5.2	OpenAI	73.8%	GPT-5.2	Official	Dec 11, 2025	Details
GLM-4.7Open	Z.ai	73.8%	GLM-4.7	Verified	Dec 22, 2025	Details
GPT-5	OpenAI	73.6%	GPT-5	Official	Aug 7, 2025	Details
MAI-Thinking-1	Microsoft AI	73.5%	MAI-Thinking-1	Verified	Jun 2, 2026	Details
Claude Opus 4.1	Anthropic	73.3%	Claude Opus 4.1	Official	Aug 5, 2025	Details
Gemini 3 Pro	Google DeepMind	72.9%	Gemini 3 Pro	Official	Nov 18, 2025	Details
GLM-5Open	Z.ai	72.1%	GLM-5	Official	Feb 11, 2026	Details
NVIDIA Nemotron 3 UltraOpen	NVIDIA	71.9%	Nemotron-3-Ultra-550B-A55B (BF16)	Verified	Jun 4, 2026	Details
MAI-Code-1-Flash	Microsoft AI	71.6%	MAI-Code-1-Flash	Unverified	Jun 2, 2026	Details
Claude Sonnet 4.5	Anthropic	71.3%	Claude Sonnet 4.5	Official	Sep 29, 2025	Details
Kimi K2 ThinkingOpen	Moonshot AI	71.3%	Kimi K2 Thinking	Verified	Nov 6, 2025	Details
Claude Opus 4	Anthropic	70.7%	Claude Opus 4	Official	May 22, 2025	Details
Amazon Nova 2 Pro	Amazon	70.0%	Nova 2 Pro	Verified	Dec 2, 2025	Details
GPT-5.1	OpenAI	68.0%	GPT-5.1	Official	Nov 12, 2025	Details
DeepSeek V3.1Open	DeepSeek	66.0%	DeepSeek-V3.1	Verified	Aug 21, 2025	Details
GPT-5 mini	OpenAI	64.7%	GPT-5 mini	Official	Aug 7, 2025	Details
Amazon Nova 2 Lite	Amazon	64.5%	Nova 2 Lite	Verified	Dec 2, 2025	Details
o3	OpenAI	62.3%	o3	Official	Apr 16, 2025	Details
Claude 3.7 Sonnet	Anthropic	61.0%	Claude 3.7 Sonnet	Official	Feb 24, 2025	Details
NVIDIA Nemotron 3 Super 120B-A12BOpen	NVIDIA	60.47%	N-3-Super	Verified	Mar 10, 2026	Details
Qwen 3.6 Plus	Alibaba / Qwen	57.9%	Qwen 3.6 Plus	Official	Apr 2, 2026	Details
Gemini 2.5 Pro	Google DeepMind	57.6%	Gemini 2.5 Pro (Jun 2025)	Official	Mar 25, 2025	Details
K-EXAONEOpen	LG AI Research	49.4%	K-EXAONE (Reasoning)	Unverified	Jan 12, 2026	Details
GPT-4.1	OpenAI	48.5%	GPT-4.1	Official	Apr 14, 2025	Details
Solar Pro 2	Upstage	40.8%	Solar Pro 2 [R, Reasoning]	Verified	Jul 10, 2025	Details
GPT-4o	OpenAI	31.0%	GPT-4o	Official	May 13, 2024	Details

Each row reports the model’s % resolved on SWE-bench Verified. Click a row for the full run context.