Claude Opus 4.6

Anthropic · Claude Opus. Released Feb 5, 2026.

Claude Opus 4.6 is a model from Anthropic in the Claude Opus family, released Feb 5, 2026. evals.report tracks 52 reported Claude Opus 4.6 benchmark scores across FrontierMath, DeepSWE, ARC-AGI-1, ARC-AGI-3, ARC-AGI-2, LMArena, LiveBench, SWE-bench Pro, and 44 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

52 results

Benchmark results 52

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	40.7%	accuracy	Official	Feb 5, 2026	Details
DeepSWE	Coding	27.06%	% resolved	Official	Feb 5, 2026	Details
ARC-AGI-1	Reasoning	94%	accuracy	Official	Feb 5, 2026	Details
ARC-AGI-3	Reasoning	0.51%	accuracy	Official	Feb 5, 2026	Details
ARC-AGI-2	Reasoning	69.17%	accuracy	Official	Feb 5, 2026	Details
LMArena	Chat preference	1499	source-defined rating	Official	Feb 5, 2026	Details
LiveBench	Reasoning	76.33%	score	Official	Feb 5, 2026	Details
SWE-bench Pro	Coding	51.90%	% resolved	Official	Feb 5, 2026	Details
GPQA Diamond	Reasoning	90.5%	accuracy	Official	Feb 5, 2026	Details
SWE-bench Verified	Coding	78.7%	% resolved	Official	Feb 5, 2026	Details
Humanity's Last Exam	Reasoning	34.2%	accuracy	Official	Feb 5, 2026	Details
MMMU-Pro	Multimodal	77.3%	accuracy	Official	Feb 5, 2026	Details
AIME (OTIS Mock)	Reasoning	94.4%	accuracy	Official	Feb 5, 2026	Details
SimpleQA Verified	Other	46.5%	accuracy	Official	Feb 5, 2026	Details
GBA Eval	Coding	44.1%	overall score	Official	Feb 5, 2026	Details
WeirdML	Coding	77.9%	average accuracy	Official	Feb 5, 2026	Details
PostTrainBench	Agents	24.82%	weighted average score	Official	Feb 5, 2026	Details
Artificial Analysis Intelligence Index	Reasoning	53	Index	Unverified	Feb 5, 2026	Details
Epoch Capabilities Index	Reasoning	155.3	Index	Official	Feb 5, 2026	Details
SWE-rebench	Coding	65.3%	Resolved rate (pass@1)	Official	Feb 5, 2026	Details
OSWorld	Agents	72.7%	task success rate	Unverified	Feb 5, 2026	Details
GAIA: A Benchmark for General AI Assistants	Agents	47.8%	accuracy	Unverified	Feb 5, 2026	Details
τ²-bench (Telecom)	Tool use	99.3%	pass^1	Unverified	Feb 5, 2026	Details
AIME 2026	Reasoning	96.67%	accuracy	Official	Feb 5, 2026	Details
GDPval	Agents	1619	Elo	Official	Feb 5, 2026	Details
METR Task-Completion Time Horizons	Agents	718.8 min	50% time horizon	Official	Feb 5, 2026	Details
SciCode	Coding	51.9%	accuracy	Unverified	Feb 5, 2026	Details
MultiChallenge	Reasoning	56.02%	accuracy	Verified	Feb 5, 2026	Details
OpenAI-MRCR v2 (Multi-Round Coreference Resolution)	Reasoning	93.0%	accuracy (mean SequenceMatcher similarity)	Verified	Feb 5, 2026	Details
Global-MMLU	Reasoning	92.2%	accuracy	Unverified	Feb 5, 2026	Details
WebDev Arena	Chat preference	1538	Elo	Verified	Feb 5, 2026	Details
Search Arena	Chat preference	1251	Elo	Verified	Feb 5, 2026	Details
EQ-Bench Creative Writing v3	Chat preference	1933	Elo	Verified	Feb 5, 2026	Details
Design Arena	Chat preference	1344	Elo	Verified	Feb 5, 2026	Details
MASK (Model Alignment between Statements and Knowledge)	Other	96.28	Honesty score	Verified	Feb 5, 2026	Details
CharXiv	Multimodal	77.4%	accuracy	Unverified	Feb 5, 2026	Details
OCRBench v2	Multimodal	48.4	accuracy	Verified	Feb 5, 2026	Details
ScreenSpot-Pro	Multimodal	83.1%	accuracy	Unverified	Feb 5, 2026	Details
SWE-bench Multilingual	Coding	72.0%	% resolved	Official	Feb 5, 2026	Details
EnigmaEval	Reasoning	7.60%	accuracy	Verified	Feb 5, 2026	Details
ZeroBench	Multimodal	11.0% (pass@5)	accuracy	Verified	Feb 5, 2026	Details
MathArena HMMT February 2026	Reasoning	96.21%	accuracy	Official	Feb 5, 2026	Details
FrontierMath Tier 4	Reasoning	22.9%	accuracy	Official	Feb 5, 2026	Details
Vectara Hallucination Leaderboard	Other	12.2%	Hallucination Rate	Official	Feb 5, 2026	Details
Vibe Code Bench	Coding	57.57%	Overall accuracy	Official	Feb 5, 2026	Details
WebArena	Agents	68.0%	Task success rate	Verified	Feb 5, 2026	Details
GSO: Software Optimization Benchmark for SWE-Agents	Coding	41.18%	Opt@1	Official	Feb 5, 2026	Details
MultiNRC	Reasoning	57.06%	accuracy	Official	Feb 5, 2026	Details
Terminal-Bench 2.0	Agents	65.4%	task success	Verified	Feb 5, 2026	Details
Remote Labor Index	Agents	4.17%	automation rate	Official	Feb 5, 2026	Details
FrontierSWE	Agents	56%	dominance score	Official	Feb 5, 2026	Details
ProgramBench	Coding	2.5%	almost-resolved rate	Official	Feb 5, 2026	Details