Claude Opus 4.5

Anthropic · Claude Opus. Released Nov 24, 2025.

Claude Opus 4.5 is a model from Anthropic in the Claude Opus family, released Nov 24, 2025. evals.report tracks 46 reported Claude Opus 4.5 benchmark scores across FrontierMath, Berkeley Function Calling Leaderboard, ARC-AGI-1, LiveBench, SWE-bench Pro, GPQA Diamond, SWE-bench Verified, Humanity's Last Exam, and 38 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

46 results

Benchmark results 46

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	20.69%	accuracy	Official	Nov 24, 2025	Details
Berkeley Function Calling Leaderboard	Tool use	77.47%	accuracy	Official	Nov 24, 2025	Details
ARC-AGI-1	Reasoning	80%	accuracy	Official	Nov 24, 2025	Details
LiveBench	Reasoning	75.96%	score	Official	Nov 24, 2025	Details
SWE-bench Pro	Coding	45.89%	% resolved	Official	Nov 24, 2025	Details
GPQA Diamond	Reasoning	86.0%	accuracy	Official	Nov 24, 2025	Details
SWE-bench Verified	Coding	76.7%	% resolved	Official	Nov 24, 2025	Details
Humanity's Last Exam	Reasoning	25.8%	accuracy	Official	Nov 24, 2025	Details
MMMU-Pro	Multimodal	73.9%	accuracy	Official	Nov 24, 2025	Details
AIME (OTIS Mock)	Reasoning	86.1%	accuracy	Official	Nov 24, 2025	Details
SimpleQA Verified	Other	41.8%	accuracy	Official	Nov 24, 2025	Details
ARC-AGI-2	Reasoning	37.64%	accuracy	Official	Nov 24, 2025	Details
LMArena	Chat preference	1449	source-defined rating	Official	Nov 24, 2025	Details
WeirdML	Coding	63.7%	average accuracy	Official	Nov 24, 2025	Details
MCP Atlas	Tool use	62.3%	pass rate	Official	Nov 24, 2025	Details
PostTrainBench	Agents	17.29%	weighted average score	Official	Nov 24, 2025	Details
Artificial Analysis Intelligence Index	Reasoning	49.7	Index	Unverified	Nov 24, 2025	Details
Epoch Capabilities Index	Reasoning	149.9	Index	Official	Nov 24, 2025	Details
Aider Polyglot	Coding	89.4%	% correct	Verified	Nov 24, 2025	Details
MMLU-Pro	Reasoning	89.5%	accuracy	Verified	Nov 24, 2025	Details
OSWorld	Agents	66.3%	task success rate	Unverified	Nov 24, 2025	Details
τ²-bench (Telecom)	Tool use	98.2%	pass^1	Unverified	Nov 24, 2025	Details
GDPval	Agents	1452	Elo	Official	Nov 24, 2025	Details
LiveCodeBench	Coding	73.8%	Pass@1	Unverified	Nov 24, 2025	Details
METR Task-Completion Time Horizons	Agents	293.0 min	50% time horizon	Official	Nov 24, 2025	Details
SciCode	Coding	49.5%	accuracy	Unverified	Nov 24, 2025	Details
MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark)	Multimodal	80.7%	accuracy	Verified	Nov 24, 2025	Details
MultiChallenge	Reasoning	58.97%	accuracy	Verified	Nov 24, 2025	Details
Global-MMLU	Reasoning	91.3%	accuracy	Unverified	Nov 24, 2025	Details
WebDev Arena	Chat preference	1467	Elo	Verified	Nov 24, 2025	Details
Search Arena	Chat preference	1182	Elo	Verified	Nov 24, 2025	Details
EQ-Bench Creative Writing v3	Chat preference	1762	Elo	Verified	Nov 24, 2025	Details
Design Arena	Chat preference	1295	Elo	Verified	Nov 24, 2025	Details
MASK (Model Alignment between Statements and Knowledge)	Other	92.53	Honesty score	Verified	Nov 24, 2025	Details
ScreenSpot-Pro	Multimodal	45.7%	accuracy	Unverified	Nov 24, 2025	Details
FACTS Grounding	Reasoning	62.1%	Grounding accuracy	Verified	Nov 24, 2025	Details
SWE-bench Multilingual	Coding	70.7%	% resolved	Official	Nov 24, 2025	Details
EnigmaEval	Reasoning	11.91%	accuracy	Verified	Nov 24, 2025	Details
ZeroBench	Multimodal	10.0% (pass@5)	accuracy	Verified	Nov 24, 2025	Details
FrontierMath Tier 4	Reasoning	4.2%	accuracy	Official	Nov 24, 2025	Details
Vectara Hallucination Leaderboard	Other	10.9%	Hallucination Rate	Official	Nov 24, 2025	Details
Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection)	Agents	0.5%	Attack Success Rate (ASR)	Verified	Nov 24, 2025	Details
Vibe Code Bench	Coding	20.63%	Overall accuracy	Verified	Nov 24, 2025	Details
WebArena	Agents	65.3%	Task success rate	Verified	Nov 24, 2025	Details
GSO: Software Optimization Benchmark for SWE-Agents	Coding	26.47%	Opt@1	Official	Nov 24, 2025	Details
MultiNRC	Reasoning	48.63%	accuracy	Official	Nov 24, 2025	Details