Question 1

What is SWE-Marathon?

Accepted Answer

A long-horizon software-engineering benchmark of 20 realistic, multi-hour tasks (library reproductions, full-stack product clones, ML-engineering, and algorithmic optimization) that test whether frontier coding agents can autonomously complete ultra-long-horizon work; scored by binary pass@1 resolution rate with reward-hacking-resistant verifiers. It is a agents benchmark measured by resolution rate (pass@1).

Question 2

What does resolution rate (pass@1) mean on SWE-Marathon?

Accepted Answer

SWE-Marathon reports resolution rate (pass@1) (%); higher is better. Scores are shown only within SWE-Marathon and are never averaged with other benchmarks.

Question 3

What is the top reported SWE-Marathon score?

Accepted Answer

Kimi K3 has the top reported score on SWE-Marathon: 42.0% (resolution rate (pass@1)).

Question 4

Why do SWE-Marathon scores differ across runs?

Accepted Answer

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Question 5

Does evals.report rank models across benchmarks?

Accepted Answer

No. SWE-Marathon scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

Model	Lab	Score↓	Source model	Status	Date
Kimi K3Open	Moonshot AI	42.0%	Kimi K3	Verified	Jul 17, 2026	Details
GPT-5.6 Sol	OpenAI	39.0%	GPT-5.6 Sol	Unverified	Jul 9, 2026	Details
Claude Fable 5	Anthropic	35.0%	Claude Fable 5	Unverified	Jun 9, 2026	Details
Grok 4.5	xAI	29.0%	Grok 4.5	Verified	Jul 8, 2026	Details
Claude Code + Claude Opus 4.8	Agent systems	26.0%	Claude Code + Claude Opus 4.8	Official	—	Details
Claude Code + Claude Opus 4.7	Agent systems	16.0%	Claude Code + Claude Opus 4.7	Official	—	Details
GLM-5.2Open	Z.ai	13.0%	GLM-5.2	Verified	Jun 16, 2026	Details
Codex CLI + GPT-5.5	Agent systems	12.0%	Codex CLI + GPT-5.5	Official	—	Details
Terminus 2 + Claude Opus 4.7	Agent systems	11.0%	Terminus 2 + Claude Opus 4.7	Official	—	Details
Gemini CLI + Gemini 3.5 Flash	Agent systems	7.0%	Gemini CLI + Gemini 3.5 Flash	Official	—	Details
Terminus 2 + GPT-5.5	Agent systems	6.0%	Terminus 2 + GPT-5.5	Official	—	Details
Terminus 2 + Gemini 3.1 Pro	Agent systems	4.0%	Terminus 2 + Gemini 3.1 Pro	Official	—	Details
Terminus 2 + DeepSeek V4 Pro	Agent systems	4.0%	Terminus 2 + DeepSeek V4 Pro	Official	—	Details
Gemini CLI + Gemini 3.1 Pro	Agent systems	2.0%	Gemini CLI + Gemini 3.1 Pro	Official	—	Details
Terminus 2 + GLM 5.1	Agent systems	1.0%	Terminus 2 + GLM 5.1	Official	—	Details
Terminus 2 + MiniMax M2.7	Agent systems	0.0%	Terminus 2 + MiniMax M2.7	Official	—	Details
Kimi Code CLI + Kimi K2.6	Agent systems	0.0%	Kimi Code CLI + Kimi K2.6	Official	—	Details
Terminus 2 + Kimi K2.6	Agent systems	0.0%	Terminus 2 + Kimi K2.6	Official	—	Details