What does average accuracy mean on WeirdML?

WeirdML reports average accuracy (%); higher is better. Scores are shown only within WeirdML and are never averaged with other benchmarks.

What is the top reported WeirdML score?

GPT-5.5 has the top reported score on WeirdML: 84.9% (average accuracy).

Why do WeirdML scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. WeirdML scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksCoding

WeirdML

Codingaverage accuracyHigher is better

Scores About Run this benchmark

What is WeirdML?

Tests whether LLMs can do machine learning on novel, unusual datasets: each model writes and iteratively debugs PyTorch code over 5 feedback rounds in a sandboxed GPU container, scored on held-out test accuracy across 17 tasks (6 public, 13 hidden). evals.report tracks reported WeirdML scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported WeirdML score: GPT-5.5 — 84.9% (average accuracy).

Model	Lab	Score↓	Source model	Status	Date
GPT-5.5	OpenAI	84.9%	gpt-5.5 (xhigh)	Official	Apr 23, 2026	Details
Claude Opus 4.8	Anthropic	82.9%	claude-opus-4.8 (xhigh)	Official	May 28, 2026	Details
Claude Opus 4.6	Anthropic	77.9%	claude-opus-4.6 (high)	Official	Feb 5, 2026	Details
GPT-5.3-Codex	OpenAI	77.9%	gpt-5.3-codex (xhigh)	Official	Feb 5, 2026	Details
GPT-5.4	OpenAI	77.7%	gpt-5.4 (xhigh)	Official	Mar 5, 2026	Details
Claude Opus 4.7	Anthropic	76.4%	claude-opus-4.7 (high)	Official	Apr 16, 2026	Details
GPT-5.2	OpenAI	72.2%	gpt-5.2 (xhigh)	Official	Dec 11, 2025	Details
Gemini 3.1 Pro Preview	Google DeepMind	72.1%	gemini-3.1-pro-preview (high)	Official	Feb 19, 2026	Details
Gemini 3 Pro	Google DeepMind	69.9%	gemini-3-pro-preview (high)	Official	Nov 18, 2025	Details
Claude Sonnet 4.6	Anthropic	66.1%	claude-sonnet-4.6 (medium)	Official	Feb 17, 2026	Details
Claude Opus 4.5	Anthropic	63.7%	claude-opus-4.5 (high, 16k)	Official	Nov 24, 2025	Details
Gemini 3.5 Flash	Google DeepMind	62.6%	gemini-3.5-flash (high)	Official	May 19, 2026	Details
Gemini 3 Flash	Google DeepMind	61.6%	gemini-3-flash-preview (high)	Official	Dec 17, 2025	Details
GPT-5.1	OpenAI	60.8%	gpt-5.1 (high)	Official	Nov 12, 2025	Details
GPT-5	OpenAI	60.7%	gpt-5 (high)	Official	Aug 7, 2025	Details
GLM-5.1Open	Z.ai	57.1%	glm-5.1	Official	Apr 7, 2026	Details
Kimi K2.6Open	Moonshot AI	55.9%	kimi-k2.6	Official	Apr 20, 2026	Details
Gemini 2.5 Pro	Google DeepMind	54.0%	gemini-2.5-pro (thinking 16k)	Official	Mar 25, 2025	Details
GPT-5 mini	OpenAI	52.7%	gpt-5-mini (high)	Official	Aug 7, 2025	Details
o4-mini	OpenAI	52.6%	o4-mini (high)	Official	Apr 16, 2025	Details
o3	OpenAI	52.4%	o3 (high)	Official	Apr 16, 2025	Details
Grok 4.20 beta reasoning	xAI	52.3%	grok-4.20-beta	Official	Mar 9, 2026	Details
Grok 4.3	xAI	49.9%	grok-4.3	Official	Apr 17, 2026	Details
DeepSeek V4 ProOpen	DeepSeek	48.9%	deepseek-v4-pro (max)	Official	Apr 24, 2026	Details
GLM-5Open	Z.ai	48.2%	glm-5 (thinking)	Official	Feb 11, 2026	Details
GPT-OSS-120BOpen	OpenAI	48.2%	gpt-oss-120b (high)	Official	Aug 5, 2025	Details
Claude Sonnet 4.5	Anthropic	47.7%	claude-sonnet-4.5 (thinking 16k)	Official	Sep 29, 2025	Details
Claude Sonnet 4	Anthropic	46.1%	claude-4-sonnet (thinking 16k)	Official	May 22, 2025	Details
Claude Opus 4.1	Anthropic	45.9%	claude-opus-4.1 (thinking 16k)	Official	Aug 5, 2025	Details
Grok 4	xAI	45.7%	grok-4-07-09	Official	Jul 9, 2025	Details
Kimi K2.5Open	Moonshot AI	45.6%	kimi-k2.5	Official	Jan 27, 2026	Details
Claude Haiku 4.5	Anthropic	45.4%	claude-haiku-4.5 (no thinking)	Official	Oct 15, 2025	Details
Claude Opus 4	Anthropic	43.7%	claude-4-opus (thinking 16k)	Official	May 22, 2025	Details
NVIDIA Nemotron 3 UltraOpen	NVIDIA	43.5%	Nemotron 3 Ultra 550B-A55B	Official	Jun 4, 2026	Details
Qwen 3 Coder 480BOpen	Alibaba / Qwen	41.2%	qwen3-coder	Official	Jul 22, 2025	Details
Gemini 2.5 Flash	Google DeepMind	40.9%	gemini-2.5-flash (thinking 16k)	Official	Apr 17, 2025	Details
Claude 3.5 Sonnet	Anthropic	40.0%	claude-3.6-sonnet	Official	Jun 20, 2024	Details
DeepSeek V3.2Open	DeepSeek	39.5%	deepseek-v3.2-exp (thinking)	Official	Dec 1, 2025	Details
Kimi K2 InstructOpen	Moonshot AI	39.4%	kimi-k2	Official	Jul 11, 2025	Details
GPT-4.1	OpenAI	39.0%	gpt-4.1	Official	Apr 14, 2025	Details
Qwen3 235B A22B Instruct 2507Open	Alibaba / Qwen	38.7%	qwen3-235b-a22b-07-25	Official	Jul 21, 2025	Details
DeepSeek R1Open	DeepSeek	36.5%	deepseek-r1	Official	Jan 20, 2025	Details
DeepSeek V3 0324Open	DeepSeek	36.1%	deepseek-v3-0324	Official	Mar 24, 2025	Details
Llama 4 MaverickOpen	Meta	24.5%	llama-4-maverick	Official	Apr 5, 2025	Details

Each row reports the model’s average accuracy on WeirdML. Click a row for the full run context.