A public chat-preference evaluation surface with source-defined preference ratings and model comparisons. It is a chat preference benchmark measured by source-defined rating.

What does source-defined rating mean on LMArena?

LMArena reports source-defined rating; higher is better. Scores are shown only within LMArena and are never averaged with other benchmarks.

What is the top reported LMArena score?

Claude Opus 4.6 has the top reported score on LMArena: 1499 (source-defined rating).

Why do LMArena scores differ across runs?

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Does evals.report rank models across benchmarks?

No. LMArena scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

BenchmarksChat preference

LMArena

A public chat-preference evaluation surface with source-defined preference ratings and model comparisons.

Chat preferencesource-defined ratingHigher is better

Scores About Run this benchmark

What is LMArena?

A public chat-preference evaluation surface with source-defined preference ratings and model comparisons. evals.report tracks reported LMArena scores with the model, source, status, date, and run caveats attached — official leaderboard scores, vendor-reported launches, and clearly labeled community runs.

Top reported LMArena score: Claude Opus 4.6 — 1499 (source-defined rating).

Model	Lab	Score↓	Source model	Status	Date
Claude Opus 4.6	Anthropic	1499	claude-opus-4-6-thinking	Official	Feb 5, 2026	Details
Claude Opus 4.7	Anthropic	1486	claude-opus-4-7-thinking	Official	Apr 16, 2026	Details
Gemini 3.5 Flash	Google DeepMind	1482	gemini-3.5-flash	Official	May 19, 2026	Details
Gemini 3.1 Pro Preview	Google DeepMind	1481	gemini-3.1-pro-preview	Official	Feb 19, 2026	Details
Gemini 3 Pro	Google DeepMind	1479	gemini-3-pro	Official	Nov 18, 2025	Details
Qwen3.7 Max Preview	Alibaba / Qwen	1474	qwen3.7-max-preview	Official	May 14, 2026	Details
Muse Spark	Meta	1474	muse-spark	Official	Apr 8, 2026	Details
GPT-5.4	OpenAI	1472	gpt-5.4-high	Official	Mar 5, 2026	Details
Qwen3.5 Max Preview	Alibaba / Qwen	1470	qwen3.5-max-preview	Official	Mar 25, 2026	Details
ERNIE 5.1	Baidu	1469	ernie-5.1	Official	May 8, 2026	Details
GLM-5.1Open	Z.ai	1469	glm-5.1	Official	Apr 7, 2026	Details
GPT-5.5	OpenAI	1468	gpt-5.5-high	Official	Apr 23, 2026	Details
Gemini 3 Flash	Google DeepMind	1466	gemini-3-flash	Official	Dec 17, 2025	Details
Gemini 2.5 Pro	Google DeepMind	1457	gemini-2.5-pro	Official	Mar 25, 2025	Details
Kimi K2.6Open	Moonshot AI	1456	kimi-k2.6	Official	Apr 20, 2026	Details
Claude Sonnet 4.6	Anthropic	1454	claude-sonnet-4-6	Official	Feb 17, 2026	Details
Grok 4.20 beta reasoning	xAI	1453	grok-4.20-beta-0309-reasoning	Official	Mar 9, 2026	Details
Claude Opus 4.5	Anthropic	1449	claude-opus-4-5-20251101	Official	Nov 24, 2025	Details
DeepSeek V4 ProOpen	DeepSeek	1446	deepseek-v4-pro	Official	Apr 24, 2026	Details
GLM-5Open	Z.ai	1445	glm-5	Official	Feb 11, 2026	Details
Qwen 3.6 Max Preview	Alibaba / Qwen	1444	qwen3.6-max-preview	Official	Apr 20, 2026	Details
GLM-4.6Open	Z.ai	1440	glm-4.6	Official	Sep 30, 2025	Details
Qwen 3.6 Plus	Alibaba / Qwen	1437	qwen3.6-plus	Official	Apr 2, 2026	Details
Claude Sonnet 4.5	Anthropic	1437	claude-sonnet-4-5-20250929	Official	Sep 29, 2025	Details
DeepSeek V3.2Open	DeepSeek	1423	deepseek-v3.2	Official	Dec 1, 2025	Details
GPT-5.1	OpenAI	1422	gpt-5.1	Official	Nov 12, 2025	Details
Qwen3 235B A22B Instruct 2507Open	Alibaba / Qwen	1419	qwen3-235b-a22b-instruct-2507	Official	Jul 21, 2025	Details
Gemini 2.5 Flash	Google DeepMind	1417	gemini-2.5-flash	Official	Apr 17, 2025	Details
GPT-5.2	OpenAI	1411	gpt-5.2	Official	Dec 11, 2025	Details
Grok 4	xAI	1409	grok-4-0709	Official	Jul 9, 2025	Details
Grok 4.3	xAI	1408	grok-4.3	Official	Apr 17, 2026	Details
GPT-5	OpenAI	1405	gpt-5-high	Official	Aug 7, 2025	Details
DeepSeek V3 0324Open	DeepSeek	1374	deepseek-v3-0324	Official	Mar 24, 2025	Details
DeepSeek R1Open	DeepSeek	1372	deepseek-r1	Official	Jan 20, 2025	Details
GPT-OSS-120BOpen	OpenAI	1365	gpt-oss-120b	Official	Aug 5, 2025	Details
Claude Opus 4	Anthropic	1364	claude-opus-4-20250514	Official	May 22, 2025	Details
Claude Sonnet 4	Anthropic	1337	claude-sonnet-4-20250514	Official	May 22, 2025	Details
DeepSeek V3Open	DeepSeek	1332	deepseek-v3	Official	Dec 26, 2024	Details
Claude 3.7 Sonnet	Anthropic	1299	claude-3-7-sonnet-20250219	Official	Feb 24, 2025	Details
Claude 3.5 Sonnet	Anthropic	1297	claude-3-5-sonnet-20241022	Official	Jun 20, 2024	Details
Mistral Large	Mistral AI	1265	mistral-large-2411	Official	Feb 26, 2024	Details

Each row reports the model’s source-defined rating on LMArena. Click a row for the full run context.