What does Elo mean on GDPval?

GDPval reports Elo; higher is better. Scores are shown only within GDPval and are never averaged with other benchmarks.

What is the top reported GDPval score?

Claude Fable 5 has the top reported score on GDPval: 1932 (Elo).

Why do GDPval scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. GDPval scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksAgents

GDPval

AgentsEloHigher is better

Scores About Run this benchmark

What is GDPval?

GDPval evaluates AI models agentically (shell + web access via a sandbox harness) on real-world economically valuable knowledge-work deliverables — documents, spreadsheets, slides, diagrams — spanning 44 occupations across 9 major U.S. GDP industries, scored by blind pairwise quality comparison; the Artificial Analysis GDPval-AA variant reports results as an Elo rating. evals.report tracks reported GDPval scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported GDPval score: Claude Fable 5 — 1932 (Elo).

Model	Lab	Score↓	Source model	Status	Date
Claude Fable 5	Anthropic	1932	Claude Mythos 5 / Fable 5	Verified	Jun 9, 2026	Details
Claude Opus 4.8	Anthropic	1890	—	Official	May 28, 2026	Details
GPT-5.5	OpenAI	1769	—	Official	Apr 23, 2026	Details
Claude Opus 4.7	Anthropic	1753	—	Official	Apr 16, 2026	Details
Claude Sonnet 4.6	Anthropic	1676	—	Official	Feb 17, 2026	Details
GPT-5.4	OpenAI	1674	—	Official	Mar 5, 2026	Details
Gemini 3.5 Flash	Google DeepMind	1659	—	Official	May 19, 2026	Details
Claude Opus 4.6	Anthropic	1619	—	Official	Feb 5, 2026	Details
Nex-N2-ProOpen	Nex AGI	1585	Nex-N2-Pro	Verified	Jun 2, 2026	Details
MiMo-V2.5-ProOpen	Xiaomi	1571	—	Official	Apr 22, 2026	Details
DeepSeek V4 ProOpen	DeepSeek	1558	—	Official	Apr 24, 2026	Details
MiMo-V2.5Open	Xiaomi	1551	—	Official	Apr 22, 2026	Details
GLM-5.1Open	Z.ai	1535	—	Official	Apr 7, 2026	Details
MiniMax M2.7Open	MiniMax	1505	—	Official	Mar 18, 2026	Details
Qwen 3.6 Max Preview	Alibaba / Qwen	1504	—	Official	Apr 20, 2026	Details
Grok 4.3	xAI	1495	—	Official	Apr 17, 2026	Details
GPT-5.3-Codex	OpenAI	1482	—	Official	Feb 5, 2026	Details
Kimi K2.6Open	Moonshot AI	1481	—	Official	Apr 20, 2026	Details
GPT-5.2	OpenAI	1467	—	Official	Dec 11, 2025	Details
Claude Opus 4.5	Anthropic	1452	—	Official	Nov 24, 2025	Details
Muse Spark	Meta	1417	—	Official	Apr 8, 2026	Details
DeepSeek V4 FlashOpen	DeepSeek	1414	—	Official	Apr 24, 2026	Details
Nex-N2-miniOpen	Nex AGI	1402	Nex-N2-mini	Verified	Jun 2, 2026	Details
GLM-5Open	Z.ai	1395	—	Official	Feb 11, 2026	Details
Qwen 3.6 Plus	Alibaba / Qwen	1354	—	Official	Apr 2, 2026	Details
Gemini 3 Deep Think	Google DeepMind	1324	—	Official	Dec 4, 2025	Details
Claude Sonnet 4.5	Anthropic	1317	—	Official	Sep 29, 2025	Details
Gemini 3.1 Pro Preview	Google DeepMind	1314	—	Official	Feb 19, 2026	Details
Step 3.7 FlashOpen	StepFun	1298	—	Official	May 29, 2026	Details
GPT-5	OpenAI	1294	—	Official	Aug 7, 2025	Details
GPT-5.2-Codex	OpenAI	1288	—	Official	Dec 18, 2025	Details
Kimi K2.5Open	Moonshot AI	1285	—	Official	Jan 27, 2026	Details
GPT-5.1	OpenAI	1227	—	Official	Nov 12, 2025	Details
Qwen3.5-397B-A17BOpen	Alibaba / Qwen	1220	—	Official	Feb 16, 2026	Details
Gemini 3 Flash	Google DeepMind	1204	—	Official	Dec 17, 2025	Details
DeepSeek V3.2Open	DeepSeek	1197	—	Official	Dec 1, 2025	Details
GLM-4.7Open	Z.ai	1185	—	Official	Dec 22, 2025	Details
GPT-5 mini	OpenAI	1184	—	Official	Aug 7, 2025	Details
Gemini 3 Pro	Google DeepMind	1184	—	Official	Nov 18, 2025	Details
MiniMax M2.5Open	MiniMax	1176	—	Official	Feb 12, 2026	Details
Claude Haiku 4.5	Anthropic	1171	—	Official	Oct 15, 2025	Details
Mistral Medium 3.5	Mistral AI	1168	—	Official	Apr 28, 2026	Details
Claude Sonnet 4	Anthropic	1133	—	Official	May 22, 2025	Details
MiniMax M2.1Open	MiniMax	1091	—	Official	Dec 23, 2025	Details
DeepSeek V3.1Open	DeepSeek	1080	—	Official	Aug 21, 2025	Details
Gemini 2.5 Flash	Google DeepMind	1071	—	Official	Apr 17, 2025	Details
Claude 3.7 Sonnet	Anthropic	1048	—	Official	Feb 24, 2025	Details
Grok 4.1 fast reasoning	xAI	1046	—	Official	Nov 19, 2025	Details
Qwen3 Max	Alibaba / Qwen	1038	—	Official	Sep 5, 2025	Details
GLM-4.6Open	Z.ai	1029	—	Official	Sep 30, 2025	Details
o4-mini	OpenAI	1008	—	Official	Apr 16, 2025	Details
Kimi K2 ThinkingOpen	Moonshot AI	992	—	Official	Nov 6, 2025	Details
Grok 4	xAI	989	—	Official	Jul 9, 2025	Details
GPT-OSS-120BOpen	OpenAI	947	—	Official	Aug 5, 2025	Details
Gemini 2.5 Pro	Google DeepMind	919	—	Official	Mar 25, 2025	Details
Mistral Large	Mistral AI	864	—	Official	Feb 26, 2024	Details
K-EXAONEOpen	LG AI Research	825	—	Official	Jan 12, 2026	Details
Qwen3 235B A22B Instruct 2507Open	Alibaba / Qwen	778	—	Official	Jul 21, 2025	Details
GPT-4.1	OpenAI	776	—	Official	Apr 14, 2025	Details
o3	OpenAI	753	—	Official	Apr 16, 2025	Details
Gemini 2.0 Flash	Google DeepMind	566	—	Official	Dec 11, 2024	Details
Qwen 3 Coder 480BOpen	Alibaba / Qwen	506	—	Official	Jul 22, 2025	Details
Solar Pro 2	Upstage	449	—	Official	Jul 10, 2025	Details
Llama 4 MaverickOpen	Meta	435	—	Official	Apr 5, 2025	Details
DeepSeek V3 0324Open	DeepSeek	407	—	Official	Mar 24, 2025	Details
GPT-4o	OpenAI	378	—	Official	May 13, 2024	Details
Jamba 1.7 LargeOpen	AI21 Labs	282	—	Official	Jul 3, 2025	Details
Llama 4 ScoutOpen	Meta	270	—	Official	Apr 5, 2025	Details
Llama 3.1 405BOpen	Meta	255	—	Official	Jul 23, 2024	Details
DeepSeek R1Open	DeepSeek	248	—	Official	Jan 20, 2025	Details

Each row reports the model’s Elo on GDPval. Click a row for the full run context.