Claude Sonnet 4.6

Anthropic · Claude Sonnet. Released Feb 17, 2026.

Claude Sonnet 4.6 is a model from Anthropic in the Claude Sonnet family, released Feb 17, 2026. evals.report tracks 38 reported Claude Sonnet 4.6 benchmark scores across FrontierMath, DeepSWE, ARC-AGI-1, LMArena, LiveBench, GPQA Diamond, SWE-bench Verified, Humanity's Last Exam, and 30 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

38 results

Benchmark results 38

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	32.4%	accuracy	Official	Feb 17, 2026	Details
DeepSWE	Coding	31.56%	% resolved	Official	Feb 17, 2026	Details
ARC-AGI-1	Reasoning	86.5%	accuracy	Official	Feb 17, 2026	Details
LMArena	Chat preference	1454	source-defined rating	Official	Feb 17, 2026	Details
LiveBench	Reasoning	75.47%	score	Official	Feb 17, 2026	Details
GPQA Diamond	Reasoning	87.4%	accuracy	Official	Feb 17, 2026	Details
SWE-bench Verified	Coding	75.2%	% resolved	Official	Feb 17, 2026	Details
Humanity's Last Exam	Reasoning	21.07%	accuracy	Official	Feb 17, 2026	Details
MMMU-Pro	Multimodal	75.6%	accuracy	Official	Feb 17, 2026	Details
AIME (OTIS Mock)	Reasoning	85.8%	accuracy	Official	Feb 17, 2026	Details
SimpleQA Verified	Other	29.0%	accuracy	Official	Feb 17, 2026	Details
ARC-AGI-2	Reasoning	60.42%	accuracy	Official	Feb 17, 2026	Details
GBA Eval	Coding	48.8%	overall score	Official	Feb 17, 2026	Details
WeirdML	Coding	66.1%	average accuracy	Official	Feb 17, 2026	Details
CursorBench	Agents	49.0%	score	Official	Feb 17, 2026	Details
PostTrainBench	Agents	16.42%	weighted average score	Official	Feb 17, 2026	Details
Artificial Analysis Intelligence Index	Reasoning	44.4	Index	Unverified	Feb 17, 2026	Details
Epoch Capabilities Index	Reasoning	152.6	Index	Official	Feb 17, 2026	Details
SWE-rebench	Coding	60.7%	Resolved rate (pass@1)	Unverified	Feb 17, 2026	Details
OSWorld	Agents	72.1%	task success rate	Unverified	Feb 17, 2026	Details
GAIA: A Benchmark for General AI Assistants	Agents	45.5%	accuracy	Unverified	Feb 17, 2026	Details
τ²-bench (Telecom)	Tool use	75.7%	pass^1	Official	Feb 17, 2026	Details
GDPval	Agents	1676	Elo	Official	Feb 17, 2026	Details
SciCode	Coding	46.9%	accuracy	Unverified	Feb 17, 2026	Details
AA-Omniscience: Knowledge and Hallucination Benchmark	Reasoning	12	AA-Omniscience Index	Official	Feb 17, 2026	Details
IFBench	Reasoning	56.6%	accuracy	Official	Feb 17, 2026	Details
Global-MMLU	Reasoning	90.5%	accuracy	Unverified	Feb 17, 2026	Details
WebDev Arena	Chat preference	1523	Elo	Verified	Feb 17, 2026	Details
Search Arena	Chat preference	1219	Elo	Verified	Feb 17, 2026	Details
EQ-Bench Creative Writing v3	Chat preference	1968	Elo	Verified	Feb 17, 2026	Details
Design Arena	Chat preference	1327	Elo	Verified	Feb 17, 2026	Details
FrontierMath Tier 4	Reasoning	8.3%	accuracy	Official	Feb 17, 2026	Details
Vectara Hallucination Leaderboard	Other	10.6%	Hallucination Rate	Official	Feb 17, 2026	Details
Vibe Code Bench	Coding	51.48%	Overall accuracy	Verified	Feb 17, 2026	Details
WebArena	Agents	65.6%	Task success rate	Verified	Feb 17, 2026	Details
Terminal-Bench 2.0	Agents	59.1%	task success	Verified	Feb 17, 2026	Details
ProgramBench	Coding	1.0%	almost-resolved rate	Official	Feb 17, 2026	Details
FrontierCode	Coding	3.5%	weighted score (Diamond)	Official	Feb 17, 2026	Details