Claude Sonnet 4.5

Anthropic · Claude Sonnet. Released Sep 29, 2025.

Claude Sonnet 4.5 is a model from Anthropic in the Claude Sonnet family, released Sep 29, 2025. evals.report tracks 46 reported Claude Sonnet 4.5 benchmark scores across Berkeley Function Calling Leaderboard, ARC-AGI-1, LiveCodeBench Pro, SWE-bench Pro, SWE-bench Verified, MMMU-Pro, GPQA Diamond, FrontierMath, and 38 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

46 results

Benchmark results 46

Compare this model

Benchmark	Category	Score	Metric	Status	Date
Berkeley Function Calling Leaderboard	Tool use	73.24%	accuracy	Official	Sep 29, 2025	Details
ARC-AGI-1	Reasoning	63.67%	accuracy	Official	Sep 29, 2025	Details
LiveCodeBench Pro	Coding	1412	Codeforces Elo	Official	Sep 29, 2025	Details
SWE-bench Pro	Coding	43.60%	% resolved	Official	Sep 29, 2025	Details
SWE-bench Verified	Coding	71.3%	% resolved	Official	Sep 29, 2025	Details
MMMU-Pro	Multimodal	68.9%	accuracy	Official	Sep 29, 2025	Details
GPQA Diamond	Reasoning	82.3%	accuracy	Official	Sep 29, 2025	Details
FrontierMath	Reasoning	15.22%	accuracy	Official	Sep 29, 2025	Details
AIME (OTIS Mock)	Reasoning	77.8%	accuracy	Official	Sep 29, 2025	Details
SimpleQA Verified	Other	23.6%	accuracy	Official	Sep 29, 2025	Details
ARC-AGI-2	Reasoning	13.61%	accuracy	Official	Sep 29, 2025	Details
Humanity's Last Exam	Reasoning	13.7%	accuracy	Official	Sep 29, 2025	Details
LMArena	Chat preference	1437	source-defined rating	Official	Sep 29, 2025	Details
WeirdML	Coding	47.7%	average accuracy	Official	Sep 29, 2025	Details
MCP Atlas	Tool use	43.8%	pass rate	Official	Sep 29, 2025	Details
PostTrainBench	Agents	9.94%	weighted average score	Official	Sep 29, 2025	Details
Epoch Capabilities Index	Reasoning	147.2	Index	Official	Sep 29, 2025	Details
MMLU-Pro	Reasoning	87.5%	accuracy	Verified	Sep 29, 2025	Details
OSWorld	Agents	61.4%	task success rate	Unverified	Sep 29, 2025	Details
GAIA: A Benchmark for General AI Assistants	Agents	74.55%	accuracy	Unverified	Sep 29, 2025	Details
BrowseComp	Agents	24.1%	accuracy	Unverified	Sep 29, 2025	Details
GDPval	Agents	1317	Elo	Official	Sep 29, 2025	Details
LiveCodeBench	Coding	59.0%	Pass@1	Unverified	Sep 29, 2025	Details
METR Task-Completion Time Horizons	Agents	122 min	50% time horizon	Official	Sep 29, 2025	Details
SciCode	Coding	44.7%	accuracy	Unverified	Sep 29, 2025	Details
MultiChallenge	Reasoning	55.32%	accuracy	Verified	Sep 29, 2025	Details
OpenAI-MRCR v2 (Multi-Round Coreference Resolution)	Reasoning	47.1%	accuracy (mean SequenceMatcher similarity)	Unverified	Sep 29, 2025	Details
Global-MMLU	Reasoning	89.3%	accuracy	Unverified	Sep 29, 2025	Details
WebDev Arena	Chat preference	1386	Elo	Verified	Sep 29, 2025	Details
Search Arena	Chat preference	1152	Elo	Verified	Sep 29, 2025	Details
EQ-Bench Creative Writing v3	Chat preference	1767	Elo	Verified	Sep 29, 2025	Details
Design Arena	Chat preference	1235	Elo	Verified	Sep 29, 2025	Details
MASK (Model Alignment between Statements and Knowledge)	Other	96.13	Honesty score	Verified	Sep 29, 2025	Details
MCP-Universe	Tool use	35.06%	Overall Success Rate	Verified	Sep 29, 2025	Details
ScreenSpot-Pro	Multimodal	36.2%	accuracy	Verified	Sep 29, 2025	Details
FACTS Grounding	Reasoning	61.8%	Grounding accuracy	Verified	Sep 29, 2025	Details
SWE-bench Multilingual	Coding	67.0%	% resolved	Official	Sep 29, 2025	Details
EnigmaEval	Reasoning	6.00%	accuracy	Verified	Sep 29, 2025	Details
ZeroBench	Multimodal	0.0% (pass@1)	accuracy	Verified	Sep 29, 2025	Details
FrontierMath Tier 4	Reasoning	4.2%	accuracy	Official	Sep 29, 2025	Details
Vectara Hallucination Leaderboard	Other	12.0%	Hallucination Rate	Official	Sep 29, 2025	Details
Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection)	Agents	1.0%	Attack Success Rate (ASR)	Verified	Sep 29, 2025	Details
Vibe Code Bench	Coding	22.62%	Overall accuracy	Verified	Sep 29, 2025	Details
WebArena	Agents	58.5%	Task success rate	Verified	Sep 29, 2025	Details
GSO: Software Optimization Benchmark for SWE-Agents	Coding	14.71%	Opt@1	Official	Sep 29, 2025	Details
MultiNRC	Reasoning	35.83%	accuracy	Official	Sep 29, 2025	Details