Claude Mythos Preview

Anthropic · Claude. Released Apr 7, 2026.

Claude Mythos Preview is a model from Anthropic in the Claude family, released Apr 7, 2026. evals.report tracks 10 reported Claude Mythos Preview benchmark scores across SWE-bench Verified, SWE-bench Pro, GPQA Diamond, Humanity's Last Exam, OSWorld, GAIA: A Benchmark for General AI Assistants, METR Task-Completion Time Horizons, CharXiv, and 2 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

10 results

Benchmark results 10

Compare this model

Benchmark	Category	Score	Metric	Status	Date
SWE-bench Verified	Coding	93.9%	% resolved	Unverified	Apr 7, 2026	Details
SWE-bench Pro	Coding	77.8%	% resolved	Unverified	Apr 7, 2026	Details
GPQA Diamond	Reasoning	94.6%	accuracy	Unverified	Apr 7, 2026	Details
Humanity's Last Exam	Reasoning	56.8%	accuracy	Unverified	Apr 7, 2026	Details
OSWorld	Agents	79.6%	task success rate	Unverified	Apr 7, 2026	Details
GAIA: A Benchmark for General AI Assistants	Agents	52.3%	accuracy	Unverified	Apr 7, 2026	Details
METR Task-Completion Time Horizons	Agents	1044.8 min	50% time horizon	Official	Apr 7, 2026	Details
CharXiv	Multimodal	93.2%	accuracy	Unverified	Apr 7, 2026	Details
SWE-bench Multimodal	Coding	59.0%	% resolved	Verified	Apr 7, 2026	Details
Terminal-Bench 2.0	Agents	82.0%	task success	Unverified	Apr 7, 2026	Details