What does task success mean on Terminal-Bench 2.1?

Terminal-Bench 2.1 reports task success (%); higher is better. Scores are shown only within Terminal-Bench 2.1 and are never averaged with other benchmarks.

What is the top reported Terminal-Bench 2.1 score?

GPT-5.6 Sol Ultra has the top reported score on Terminal-Bench 2.1: 91.9% (task success).

Why do Terminal-Bench 2.1 scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. Terminal-Bench 2.1 scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksAgents

Terminal-Bench 2.1

A command-line agent benchmark for completing terminal tasks in reproducible task environments.

Agentstask successHigher is better

Scores About Run this benchmark

What is Terminal-Bench 2.1?

A command-line agent benchmark for completing terminal tasks in reproducible task environments. evals.report tracks reported Terminal-Bench 2.1 scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported Terminal-Bench 2.1 score: GPT-5.6 Sol Ultra — 91.9% (task success).

Model	Lab	Score↓	Source model	Status	Date
GPT-5.6 Sol Ultra	OpenAI	91.9%	GPT-5.6 Sol (Ultra)	Verified	Jul 9, 2026	Details
GPT-5.6 Sol	OpenAI	88.8%	GPT-5.6 Sol	Verified	Jul 9, 2026	Details
Kimi K3Open	Moonshot AI	88.3%	Kimi K3	Verified	Jul 17, 2026	Details
GPT-5.6 Terra	OpenAI	87.4%	GPT-5.6 Terra	Verified	Jul 9, 2026	Details
GPT-5.6 Luna	OpenAI	84.7%	GPT-5.6 Luna	Verified	Jul 9, 2026	Details
Claude Fable 5	Anthropic	84.6%	Claude Fable 5	Unverified	Jun 9, 2026	Details
Codex CLI + GPT-5.5	Agent systems	83.4%	Codex CLI + GPT-5.5	Verified	—	Details
Grok 4.5	xAI	83.3%	Grok 4.5	Verified	Jul 8, 2026	Details
Fugu Ultra	Sakana AI	82.1%	Fugu Ultra	Verified	Jun 15, 2026	Details
SWE-1.7	Cognition	81.5%	SWE-1.7	Verified	Jul 8, 2026	Details
GLM-5.2Open	Z.ai	81.0%	GLM-5.2	Verified	Jun 16, 2026	Details
Claude Sonnet 5	Anthropic	80.4%	Claude Sonnet 5	Verified	Jun 30, 2026	Details
Fugu	Sakana AI	80.2%	Fugu	Verified	Jun 15, 2026	Details
Muse Spark 1.1	Meta	80.0%	Muse Spark 1.1	Verified	Jul 9, 2026	Details
Claude Code + Claude Opus 4.8	Agent systems	78.9%	Claude Code + Claude Opus 4.8	Verified	—	Details
Terminus 2 + GPT-5.5	Agent systems	78.2%	Terminus 2 + GPT-5.5	Verified	—	Details
Ornith-1.0-397BOpen	DeepReinforce	77.5%	Ornith-1.0-397B (Terminus-2)	Verified	Jun 25, 2026	Details
Nex-N2-ProOpen	Nex AGI	75.3%	Nex-N2-Pro	Verified	Jun 2, 2026	Details
Terminus 2 + Claude Opus 4.8	Agent systems	74.6%	Terminus 2 + Claude Opus 4.8	Verified	—	Details
Terminus 2 + Gemini 3 Pro	Agent systems	74.4%	Terminus 2 + Gemini 3 Pro	Verified	—	Details
Gemini CLI + Gemini 3.1 Pro	Agent systems	70.7%	Gemini CLI + Gemini 3.1 Pro	Verified	—	Details
Terminus 2 + Gemini 3.1 Pro	Agent systems	70.3%	Terminus 2 + Gemini 3.1 Pro	Verified	—	Details
Claude Code + Claude Opus 4.7	Agent systems	69.7%	Claude Code + Claude Opus 4.7	Verified	—	Details
Gemini CLI + Gemini 3 Pro	Agent systems	66.3%	Gemini CLI + Gemini 3 Pro	Verified	—	Details
Terminus 2 + Claude Opus 4.7	Agent systems	66.1%	Terminus 2 + Claude Opus 4.7	Verified	—	Details
MiniMax M3Open	MiniMax	66.0%	MiniMax M3 (Terminus 2)	Verified	Jun 1, 2026	Details
InklingOpen	Thinking Machines Lab	63.8%	Inkling	Verified	Jul 15, 2026	Details
Nex-N2-miniOpen	Nex AGI	60.7%	Nex-N2-mini	Verified	Jun 2, 2026	Details
Step 3.7 FlashOpen	StepFun	59.6%	Step 3.7 Flash	Verified	May 29, 2026	Details
Claude Code + GLM 5.1	Agent systems	58.7%	Claude Code + GLM 5.1	Verified	—	Details
NVIDIA Nemotron 3 UltraOpen	NVIDIA	56.4%	Nemotron-3-Ultra-550B-A55B (BF16)	Verified	Jun 4, 2026	Details

Each row reports the model’s task success on Terminal-Bench 2.1. Click a row for the full run context.