Question 1

What is OSWorld?

Accepted Answer

OSWorld benchmarks multimodal AI agents on their ability to complete open-ended, real-world computer-use tasks (operating GUIs across web, files, and applications) in live operating-system environments via screenshots and mouse/keyboard control, measured by execution-based task success rate. It is a agents benchmark measured by task success rate.

Question 2

What does task success rate mean on OSWorld?

Accepted Answer

OSWorld reports task success rate (%); higher is better. Scores are shown only within OSWorld and are never averaged with other benchmarks.

Question 3

What is the top reported OSWorld score?

Accepted Answer

Claude Fable 5 has the top reported score on OSWorld: 85.0% (task success rate).

Question 4

Why do OSWorld scores differ across runs?

Accepted Answer

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Question 5

Does evals.report rank models across benchmarks?

Accepted Answer

No. OSWorld scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

Model	Lab	Score↓	Source model	Status	Date
Claude Fable 5	Anthropic	85.0%	Claude Fable 5	Verified	Jun 9, 2026	Details
Claude Opus 4.8	Anthropic	83.4%	—	Verified	May 28, 2026	Details
Claude Opus 4.7	Anthropic	82.8%	—	Verified	Apr 16, 2026	Details
Claude Sonnet 5	Anthropic	81.2%	Claude Sonnet 5	Verified	Jun 30, 2026	Details
Muse Spark 1.1	Meta	80.8%	Muse Spark 1.1	Verified	Jul 9, 2026	Details
Claude Mythos Preview	Anthropic	79.6%	—	Unverified	Apr 7, 2026	Details
GPT-5.5	OpenAI	78.7%	—	Unverified	Apr 23, 2026	Details
Gemini 3.5 Flash	Google DeepMind	78.4%	—	Unverified	May 19, 2026	Details
Gemini 3.1 Pro Preview	Google DeepMind	76.2%	—	Verified	Feb 19, 2026	Details
GPT-5.4	OpenAI	75.0%	—	Unverified	Mar 5, 2026	Details
Kimi K2.6Open	Moonshot AI	73.1%	—	Unverified	Apr 20, 2026	Details
Claude Opus 4.6	Anthropic	72.7%	—	Unverified	Feb 5, 2026	Details
Claude Sonnet 4.6	Anthropic	72.1%	—	Unverified	Feb 17, 2026	Details
MiniMax M3Open	MiniMax	70.1%	—	Unverified	Jun 1, 2026	Details
Claude Opus 4.5	Anthropic	66.3%	—	Unverified	Nov 24, 2025	Details
GPT-5.3-Codex	OpenAI	64.7%	—	Unverified	Feb 5, 2026	Details
Claude Sonnet 4.5	Anthropic	61.4%	—	Unverified	Sep 29, 2025	Details
GPT-5.2	OpenAI	47.3%	—	Unverified	Dec 11, 2025	Details