Claude Opus 4.7

Anthropic · Claude Opus. Released Apr 16, 2026.

Claude Opus 4.7 is a model from Anthropic in the Claude Opus family, released Apr 16, 2026. evals.report tracks 40 reported Claude Opus 4.7 benchmark scores across FrontierMath, DeepSWE, ARC-AGI-1, ARC-AGI-3, ARC-AGI-2, LMArena, LiveBench, GPQA Diamond, and 32 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

40 results

Benchmark results 40

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	43.79%	accuracy	Official	Apr 16, 2026	Details
DeepSWE	Coding	54.20%	% resolved	Official	Apr 16, 2026	Details
ARC-AGI-1	Reasoning	92%	accuracy	Official	Apr 16, 2026	Details
ARC-AGI-3	Reasoning	0.18%	accuracy	Official	Apr 16, 2026	Details
ARC-AGI-2	Reasoning	75.83%	accuracy	Official	Apr 16, 2026	Details
LMArena	Chat preference	1486	source-defined rating	Official	Apr 16, 2026	Details
LiveBench	Reasoning	76.91%	score	Official	Apr 16, 2026	Details
GPQA Diamond	Reasoning	90.2%	accuracy	Official	Apr 16, 2026	Details
SWE-bench Verified	Coding	83.5%	% resolved	Official	Apr 16, 2026	Details
Humanity's Last Exam	Reasoning	39.04%	accuracy	Official	Apr 16, 2026	Details
AIME (OTIS Mock)	Reasoning	97.8%	accuracy	Official	Apr 16, 2026	Details
SimpleQA Verified	Other	50.6%	accuracy	Official	Apr 16, 2026	Details
GBA Eval	Coding	43.8%	overall score	Official	Apr 16, 2026	Details
WeirdML	Coding	76.4%	average accuracy	Official	Apr 16, 2026	Details
CursorBench	Agents	64.8%	score	Official	Apr 16, 2026	Details
PostTrainBench	Agents	28.56%	weighted average score	Official	Apr 16, 2026	Details
Artificial Analysis Intelligence Index	Reasoning	57	Index	Official	Apr 16, 2026	Details
Epoch Capabilities Index	Reasoning	156.2	Index	Official	Apr 16, 2026	Details
MMLU-Pro	Reasoning	89.87%	accuracy	Verified	Apr 16, 2026	Details
OSWorld	Agents	82.8%	task success rate	Verified	Apr 16, 2026	Details
τ²-bench (Telecom)	Tool use	88.6%	pass^1	Official	Apr 16, 2026	Details
AIME 2026	Reasoning	95.83%	accuracy	Official	Apr 16, 2026	Details
GDPval	Agents	1753	Elo	Official	Apr 16, 2026	Details
SciCode	Coding	54.5%	accuracy	Unverified	Apr 16, 2026	Details
AA-Omniscience: Knowledge and Hallucination Benchmark	Reasoning	26	AA-Omniscience Index	Official	Apr 16, 2026	Details
IFBench	Reasoning	58.6%	accuracy	Official	Apr 16, 2026	Details
WebDev Arena	Chat preference	1562	Elo	Verified	Apr 16, 2026	Details
Search Arena	Chat preference	1237	Elo	Verified	Apr 16, 2026	Details
EQ-Bench Creative Writing v3	Chat preference	2206	Elo	Verified	Apr 16, 2026	Details
Design Arena	Chat preference	1328	Elo	Verified	Apr 16, 2026	Details
CharXiv	Multimodal	91.0%	accuracy	Unverified	Apr 16, 2026	Details
ZeroBench	Multimodal	14.0% (pass@5)	accuracy	Verified	Apr 16, 2026	Details
MathArena HMMT February 2026	Reasoning	93.94%	accuracy	Official	Apr 16, 2026	Details
FrontierMath Tier 4	Reasoning	22.9%	accuracy	Official	Apr 16, 2026	Details
Vectara Hallucination Leaderboard	Other	12.0%	Hallucination Rate	Official	Apr 16, 2026	Details
Vibe Code Bench	Coding	71.00%	Overall accuracy	Official	Apr 16, 2026	Details
GSO: Software Optimization Benchmark for SWE-Agents	Coding	44.12%	Opt@1	Official	Apr 16, 2026	Details
FrontierSWE	Agents	63%	dominance score	Official	Apr 16, 2026	Details
ProgramBench	Coding	4.5%	almost-resolved rate	Official	Apr 16, 2026	Details
FrontierCode	Coding	5.2%	weighted score (Diamond)	Official	Apr 16, 2026	Details