LabsAnthropic

Anthropic

Track Anthropic model scores across public AI benchmarks including GPQA Diamond, SWE-bench Verified, FrontierMath, AIME (OTIS Mock), and WeirdML. Each result is shown one benchmark at a time, with source links and evaluation dates — no blended score or composite ranking. 15 models tracked, spanning Claude Sonnet, Claude Opus, Claude Haiku, and Claude.

Model	SWE-bench Verified % resolved	Terminal-Bench 2.1 task success	DeepSWE % resolved	GPQA Diamond accuracy	LiveCodeBench Pro Codeforces Elo	Humanity's Last Exam accuracy	LiveBench score	SWE-bench Pro % resolved	Berkeley Function Calling Leaderboard accuracy	MMMU-Pro accuracy	LMArena source-defined rating	ARC-AGI-1 accuracy	ARC-AGI-2 accuracy	ARC-AGI-3 accuracy	FrontierMath accuracy	AIME (OTIS Mock) accuracy	SimpleQA Verified accuracy	GBA Eval overall score	WeirdML average accuracy	MCP Atlas pass rate	Remote Labor Index automation rate	Artificial Analysis Intelligence Index Index	Epoch Capabilities Index Index	Aider Polyglot % correct	SWE-rebench Resolved rate (pass@1)	MMLU-Pro accuracy	OSWorld task success rate	GAIA: A Benchmark for General AI Assistants accuracy	BrowseComp accuracy	τ²-bench (Telecom) pass^1	AIME 2026 accuracy	MathVista accuracy	Video-MME accuracy	GDPval Elo	LiveCodeBench Pass@1	METR Task-Completion Time Horizons 50% time horizon	SciCode accuracy	MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) accuracy	AA-Omniscience: Knowledge and Hallucination Benchmark AA-Omniscience Index	IFBench accuracy	MultiChallenge accuracy	OpenAI-MRCR v2 (Multi-Round Coreference Resolution) accuracy (mean SequenceMatcher similarity)	LongBench v2 accuracy	Global-MMLU accuracy	Video-MMMU accuracy	WebDev Arena Elo	Search Arena Elo	Arena-Hard-Auto v2.0 % win rate	EQ-Bench Creative Writing v3 Elo	Design Arena Elo	AILuminate AI Safety Benchmark Safety grade	MASK (Model Alignment between Statements and Knowledge) Honesty score	MCP-Universe Overall Success Rate	CharXiv accuracy	OCRBench v2 accuracy	ScreenSpot-Pro accuracy	FACTS Grounding Grounding accuracy	BigCodeBench calibrated Pass@1	SWE-bench Multilingual % resolved	SWE-bench Multimodal % resolved	SuperGPQA accuracy	EnigmaEval accuracy	ZeroBench accuracy	IMO-Bench accuracy	PutnamBench Problems solved	MathArena HMMT February 2026 accuracy	FrontierMath Tier 4 accuracy	Vectara Hallucination Leaderboard Hallucination Rate	Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection) Attack Success Rate (ASR)	PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts Difficulty-Weighted Accuracy (DW-ACC)	Vibe Code Bench Overall accuracy	Online-Mind2Web Task success rate	WebArena Task success rate	GSO: Software Optimization Benchmark for SWE-Agents Opt@1	MultiNRC accuracy	Terminal-Bench 2.0 task success	SWE-Marathon resolution rate (pass@1)	FrontierCode weighted score (Diamond)	FrontierSWE dominance score	ProgramBench almost-resolved rate	CursorBench score	PostTrainBench weighted average score
Claude 3.5 Sonnet Claude Sonnet	—	—	—	54.0%	572	—	—	—	—	51.5%	1297	—	—	—	1.03%	6.5%	—	—	40.0%	—	—	—	134.4	51.6%	—	77.2%	—	—	—	—	—	67.7%	60.0%	—	38.1%	11.4 min	36.6%	68.3%	—	—	41.4%	—	46.7%	—	65.8%	—	—	33.0%	1448	—	Very Good	72.33	—	—	47.5	—	79.4%	35.1%	—	25.34%	48.16%	0.91%	0.0% (pass@1)	—	—	—	—	—	1.85%	—	—	29.0%	—	4.6%	—	—	—	—	—	—	—	—
Claude 3.7 Sonnet Claude Sonnet	61.0%	—	—	78.5%	—	—	—	—	—	—	1299	—	—	—	4.14%	57.8%	—	—	—	—	—	—	142.0	64.9%	—	83.7%	—	43.9%	—	49%	—	—	—	1048	39.4%	60.4 min	40.3%	75.0%	—	—	51.58%	—	—	—	—	—	—	59.8%	1395	1231	—	82.13	24.24%	—	—	—	—	33.8%	43%	31.33%	—	4.23%	1.0% (pass@1)	—	0	—	—	—	1.61%	33.5	—	39.33%	52.0%	3.8%	27.77%	—	—	—	—	—	—	—
Claude Sonnet 4 Claude Sonnet	—	—	—	78.3%	—	—	—	42.70%	—	—	1337	40%	5.93%	—	4.14%	71.1%	—	—	46.1%	35.6%	—	33	142.6	61.3%	—	84.2%	—	—	—	—	—	—	—	1133	44.9%	75 min	40.0%	74.4%	—	42.3%	57.11%	—	—	—	—	—	—	—	1514	1196	—	95.33	32.90%	—	42.4	—	56.1%	—	—	35.59%	—	3.12%	2.0% (pass@1)	23.0%	—	—	—	10.3%	—	—	—	40.00%	—	4.9%	18.39%	—	—	—	—	—	—	—
Claude Opus 4 Claude Opus	70.7%	—	—	76.3%	—	—	—	—	—	—	1364	—	—	—	4.48%	64.4%	—	—	43.7%	—	—	—	143.4	72.0%	—	87.3%	—	64.85%	—	—	—	—	—	—	54.2%	100.4 min	40.9%	76.5%	—	—	58.62%	—	—	—	—	—	1128	—	1639	1215	—	87.87	28.14%	—	—	—	—	—	—	—	—	5.57%	1.0% (pass@1)	22.3%	—	—	4.2%	12.0%	—	—	—	—	—	6.86%	33.93%	—	—	—	—	—	—	—
Claude Opus 4.1 Claude Opus	73.3%	—	—	77.3%	—	—	—	—	—	—	—	—	—	—	7.24%	68.9%	34.8%	—	45.9%	40.9%	—	42	144.7	—	—	88.0%	—	68.48%	—	—	—	—	—	—	—	100.5 min	40.9%	77.1%	—	—	57.20%	—	—	—	—	1386	1148	—	—	1219	—	94.20	29.44%	—	—	—	54.8%	—	—	—	—	7.18%	1.0% (pass@1)	—	—	—	4.2%	11.8%	—	—	—	—	—	—	38.39%	—	—	—	—	—	—	—
Claude Sonnet 4.5 Claude Sonnet	71.3%	—	—	82.3%	1412	13.7%	—	43.60%	73.24%	68.9%	1437	63.67%	13.61%	—	15.22%	77.8%	23.6%	—	47.7%	43.8%	—	—	147.2	—	—	87.5%	61.4%	74.55%	24.1%	—	—	—	—	1317	59.0%	122 min	44.7%	—	—	—	55.32%	47.1%	—	89.3%	—	1386	1152	—	1767	1235	—	96.13	35.06%	—	—	36.2%	61.8%	—	67.0%	—	—	6.00%	0.0% (pass@1)	—	—	—	4.2%	12.0%	1.0%	—	22.62%	—	58.5%	14.71%	35.83%	—	—	—	—	—	—	9.94%
Claude Haiku 4.5 Claude Haiku	—	—	0.22%	71.2%	—	—	—	39.45%	68.70%	—	—	47.67%	4.03%	—	5.9%	66.7%	5.9%	—	45.4%	—	—	—	143.1	—	—	80.0%	—	56.36%	—	54.7%	—	—	—	1171	51.1%	—	43.3%	73.2%	-4	54.3%	50.49%	—	—	83.4%	—	1322	—	—	—	1169	—	—	26.41%	—	—	—	—	—	64.7%	—	—	—	—	—	—	—	2.1%	9.8%	1.3%	—	—	—	53.1%	—	—	—	—	—	—	—	—	—
Claude Opus 4.5 Claude Opus	76.7%	—	—	86.0%	—	25.8%	75.96%	45.89%	77.47%	73.9%	1449	80%	37.64%	—	20.69%	86.1%	41.8%	—	63.7%	62.3%	—	49.7	149.9	89.4%	—	89.5%	66.3%	—	—	98.2%	—	—	—	1452	73.8%	293.0 min	49.5%	80.7%	—	—	58.97%	—	—	91.3%	—	1467	1182	—	1762	1295	—	92.53	—	—	—	45.7%	62.1%	—	70.7%	—	—	11.91%	10.0% (pass@5)	—	—	—	4.2%	10.9%	0.5%	—	20.63%	—	65.3%	26.47%	48.63%	—	—	—	—	—	—	17.29%
Claude Opus 4.6 Claude Opus	78.7%	—	27.06%	90.5%	—	34.2%	76.33%	51.90%	—	77.3%	1499	94%	69.17%	0.51%	40.7%	94.4%	46.5%	44.1%	77.9%	—	4.17%	53	155.3	—	65.3%	—	72.7%	47.8%	—	99.3%	96.67%	—	—	1619	—	718.8 min	51.9%	—	—	—	56.02%	93.0%	—	92.2%	—	1538	1251	—	1933	1344	—	96.28	—	77.4%	48.4	83.1%	—	—	72.0%	—	—	7.60%	11.0% (pass@5)	—	—	96.21%	22.9%	12.2%	—	—	57.57%	—	68.0%	41.18%	57.06%	65.4%	—	—	56%	2.5%	—	24.82%
Claude Sonnet 4.6 Claude Sonnet	75.2%	—	31.56%	87.4%	—	21.07%	75.47%	—	—	75.6%	1454	86.5%	60.42%	—	32.4%	85.8%	29.0%	48.8%	66.1%	—	—	44.4	152.6	—	60.7%	—	72.1%	45.5%	—	75.7%	—	—	—	1676	—	—	46.9%	—	12	56.6%	—	—	—	90.5%	—	1523	1219	—	1968	1327	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	8.3%	10.6%	—	—	51.48%	—	65.6%	—	—	59.1%	—	3.5%	—	1.0%	49.0%	16.42%
Claude Mythos Preview Claude	93.9%	—	—	94.6%	—	56.8%	—	77.8%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	79.6%	52.3%	—	—	—	—	—	—	—	1044.8 min	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	93.2%	—	—	—	—	—	59.0%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	82.0%	—	—	—	—	—	—
Claude Opus 4.7 Claude Opus	83.5%	—	54.20%	90.2%	—	39.04%	76.91%	—	—	—	1486	92%	75.83%	0.18%	43.79%	97.8%	50.6%	43.8%	76.4%	—	—	57	156.2	—	—	89.87%	82.8%	—	—	88.6%	95.83%	—	—	1753	—	—	54.5%	—	26	58.6%	—	—	—	—	—	1562	1237	—	2206	1328	—	—	—	91.0%	—	—	—	—	—	—	—	—	14.0% (pass@5)	—	—	93.94%	22.9%	12.0%	—	—	71.00%	—	—	44.12%	—	—	—	5.2%	63%	4.5%	64.8%	28.56%
Claude Opus 4.8 Claude Opus	88.6%	—	58%	93.6%	—	49.8%	77.22%	69.2%	—	—	—	92%	72.08%	1.52%	—	—	—	70.9%	82.9%	—	8.33%	61	—	—	—	—	83.4%	—	—	94.4%	100.00%	—	—	1890	—	—	—	—	27	62.2%	—	—	—	—	—	—	—	—	2031	1282	—	—	—	89.9%	—	87.9%	—	—	—	38.4%	—	—	—	—	—	95.45%	—	—	—	—	82.72%	—	—	—	—	—	—	13.4%	75%	—	63.8%	37.23%
Claude Fable 5 Claude	95.0%	—	—	—	—	—	—	80.0%	—	—	—	—	—	—	—	—	—	—	—	—	16.1%	65	—	—	—	—	85.0%	—	—	—	—	—	—	1932	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	84.3%	—	29.3%	90%	—	72.9%	—
Claude Sonnet 5 Claude Sonnet	—	80.4%	—	—	—	43.2%	—	63.2%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	81.2%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—

Anthropic

Models 15

Progress by benchmark

Progress matrix

Related pages