What does % resolved mean on SWE-bench Pro?

SWE-bench Pro reports % resolved (%); higher is better. Scores are shown only within SWE-bench Pro and are never averaged with other benchmarks.

What is the top reported SWE-bench Pro score?

Claude Fable 5 has the top reported score on SWE-bench Pro: 80.0% (% resolved).

Why do SWE-bench Pro scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. SWE-bench Pro scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksCoding

SWE-bench Pro

A harder public software-engineering agent benchmark built around professional repository tasks.

Coding% resolvedHigher is better

Scores About Run this benchmark

What is SWE-bench Pro?

A harder public software-engineering agent benchmark built around professional repository tasks. evals.report tracks reported SWE-bench Pro scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported SWE-bench Pro score: Claude Fable 5 — 80.0% (% resolved).

Model	Lab	Score↓	Source model	Status	Date
Claude Fable 5	Anthropic	80.0%	Claude Fable 5	Verified	Jun 9, 2026	Details
Claude Mythos Preview	Anthropic	77.8%	Claude Mythos Preview	Unverified	Apr 7, 2026	Details
Fugu Ultra	Sakana AI	73.7%	Fugu Ultra	Verified	Jun 15, 2026	Details
Claude Opus 4.8	Anthropic	69.2%	Claude Opus 4.8	Unverified	May 28, 2026	Details
Grok 4.5	xAI	64.7%	Grok 4.5	Verified	Jul 8, 2026	Details
GPT-5.6 Sol	OpenAI	64.6%	GPT-5.6 Sol	Verified	Jul 9, 2026	Details
GPT-5.6 Terra	OpenAI	63.4%	GPT-5.6 Terra	Verified	Jul 9, 2026	Details
Claude Sonnet 5	Anthropic	63.2%	Claude Sonnet 5	Unverified	Jun 30, 2026	Details
GPT-5.6 Luna	OpenAI	62.7%	GPT-5.6 Luna	Verified	Jul 9, 2026	Details
Ornith-1.0-397BOpen	DeepReinforce	62.2%	Ornith-1.0-397B	Verified	Jun 25, 2026	Details
GLM-5.2Open	Z.ai	62.1%	GLM-5.2	Verified	Jun 16, 2026	Details
Muse Spark 1.1	Meta	61.5%	Muse Spark 1.1	Official	Jul 9, 2026	Details
GPT-5.4	OpenAI	59.10%	gpt-5.4 (xHigh)*	Official	Mar 5, 2026	Details
MiniMax M3Open	MiniMax	59.0%	MiniMax M3	Verified	Jun 1, 2026	Details
Fugu	Sakana AI	59.0%	Fugu	Verified	Jun 15, 2026	Details
Nex-N2-ProOpen	Nex AGI	58.8%	Nex-N2-Pro	Verified	Jun 2, 2026	Details
GPT-5.5	OpenAI	58.6%	GPT-5.5	Verified	Apr 23, 2026	Details
MiMo-V2.5-ProOpen	Xiaomi	57.2%	MiMo-V2.5-Pro	Verified	Apr 22, 2026	Details
Step 3.7 FlashOpen	StepFun	56.3%	Step 3.7 Flash	Verified	May 29, 2026	Details
MiniMax M2.7Open	MiniMax	56.22%	MiniMax M2.7	Verified	Mar 18, 2026	Details
MiMo-V2.5Open	Xiaomi	56.1	MiMo-V2.5	Verified	Apr 22, 2026	Details
DeepSeek V4 ProOpen	DeepSeek	55.4%	DeepSeek V4 Pro Max	Unverified	Apr 24, 2026	Details
MiniMax M2.5Open	MiniMax	55.4%	MiniMax-M2.5	Verified	Feb 12, 2026	Details
Muse Spark	Meta	55.00%	Muse Spark*	Official	Apr 8, 2026	Details
InklingOpen	Thinking Machines Lab	54.3%	Inkling	Verified	Jul 15, 2026	Details
MAI-Thinking-1	Microsoft AI	52.8%	MAI-Thinking-1	Verified	Jun 2, 2026	Details
DeepSeek V4 FlashOpen	DeepSeek	52.6%	DeepSeek-V4-Flash (Think-Max)	Verified	Apr 24, 2026	Details
Claude Opus 4.6	Anthropic	51.90%	claude-opus-4-6 (thinking)*	Official	Feb 5, 2026	Details
MAI-Code-1-Flash	Microsoft AI	51.2%	MAI-Code-1-Flash	Unverified	Jun 2, 2026	Details
Nex-N2-miniOpen	Nex AGI	50.2%	Nex-N2-mini	Verified	Jun 2, 2026	Details
Doubao Seed 2.0 Pro	ByteDance	46.9%	Seed2.0 Pro (0215)	Verified	Feb 14, 2026	Details
Gemini 3.1 Pro Preview	Google DeepMind	46.10%	gemini-3.1-pro (thinking)*	Official	Feb 19, 2026	Details
Claude Opus 4.5	Anthropic	45.89%	claude-opus-4-5-20251101	Official	Nov 24, 2025	Details
Claude Sonnet 4.5	Anthropic	43.60%	claude-4-5-Sonnet	Official	Sep 29, 2025	Details
Gemini 3 Pro	Google DeepMind	43.30%	gemini-3-pro-preview	Official	Nov 18, 2025	Details
Claude Sonnet 4	Anthropic	42.70%	claude-4-Sonnet	Official	May 22, 2025	Details
GPT-5	OpenAI	41.78%	gpt-5-2025-08-07 (High)	Official	Aug 7, 2025	Details
GPT-5.2-Codex	OpenAI	41.04%	gpt-5.2-codex	Official	Dec 18, 2025	Details
Claude Haiku 4.5	Anthropic	39.45%	claude-4-5-haiku	Official	Oct 15, 2025	Details
Qwen 3 Coder 480BOpen	Alibaba / Qwen	38.70%	qwen3-coder-480b-a35b	Official	Jul 22, 2025	Details
MiniMax M2.1Open	MiniMax	36.81%	minimax-2.1	Official	Dec 23, 2025	Details
Gemini 3 Flash	Google DeepMind	34.63%	gemini-3-flash	Official	Dec 17, 2025	Details
GPT-5.2	OpenAI	29.94%	gpt-5.2	Official	Dec 11, 2025	Details
Kimi K2 InstructOpen	Moonshot AI	27.67%	kimi-k2-instruct	Official	Jul 11, 2025	Details
Qwen3 235B A22B Instruct 2507Open	Alibaba / Qwen	21.41%	qwen3-235b-a22b	Official	Jul 21, 2025	Details
GPT-OSS-120BOpen	OpenAI	16.20%	gpt-oss-120b	Official	Aug 5, 2025	Details
DeepSeek V3.2Open	DeepSeek	15.56%	deepseek-v3p2	Official	Dec 1, 2025	Details
Llama 3.1 405BOpen	Meta	11.18%	llama3-1-405b-instruct	Official	Jul 23, 2024	Details
GLM-4.6Open	Z.ai	9.67%	glm-4.6	Official	Sep 30, 2025	Details
Llama 4 MaverickOpen	Meta	5.24%	llama4-maverick-17b-instruct	Official	Apr 5, 2025	Details

Each row reports the model’s % resolved on SWE-bench Pro. Click a row for the full run context.