Question 1

What is Search Arena?

Accepted Answer

A crowdsourced human-preference leaderboard from LMArena that ranks search-augmented LLMs via blind pairwise votes on grounded, web-search answers, reported as Bradley-Terry Elo-scale ratings. It is a chat preference benchmark measured by Elo.

Question 2

What does Elo mean on Search Arena?

Accepted Answer

Search Arena reports Elo; higher is better. Scores are shown only within Search Arena and are never averaged with other benchmarks.

Question 3

What is the top reported Search Arena score?

Accepted Answer

Claude Opus 4.6 has the top reported score on Search Arena: 1251 (Elo).

Question 4

Why do Search Arena scores differ across runs?

Accepted Answer

Harness, scaffold, reasoning effort, and prompt setup change results, so two runs of the same model can differ. evals.report keeps each score with its run context so the differences stay visible.

Question 5

Does evals.report rank models across benchmarks?

Accepted Answer

No. Search Arena scores are shown within their own metric; evals.report never combines benchmarks into a composite ranking or a single "best model".

Model	Lab	Score↓	Source model	Status	Date
Claude Opus 4.6	Anthropic	1251	—	Verified	Feb 5, 2026	Details
GPT-5.5	OpenAI	1239	—	Verified	Apr 23, 2026	Details
Claude Opus 4.7	Anthropic	1237	—	Verified	Apr 16, 2026	Details
ERNIE 5.1	Baidu	1226	—	Verified	May 8, 2026	Details
Claude Sonnet 4.6	Anthropic	1219	—	Verified	Feb 17, 2026	Details
Gemini 3.1 Pro Preview	Google DeepMind	1216	—	Verified	Feb 19, 2026	Details
GPT-5.2	OpenAI	1210	—	Verified	Dec 11, 2025	Details
Gemini 3 Pro	Google DeepMind	1208	—	Verified	Nov 18, 2025	Details
Gemini 3 Flash	Google DeepMind	1206	—	Verified	Dec 17, 2025	Details
GPT-5.1	OpenAI	1199	—	Verified	Nov 12, 2025	Details
GPT-5.4	OpenAI	1199	—	Verified	Mar 5, 2026	Details
Grok 4.20 beta reasoning	xAI	1193	—	Verified	Mar 9, 2026	Details
Grok 4.3	xAI	1189	—	Verified	Apr 17, 2026	Details
Claude Opus 4.5	Anthropic	1182	—	Verified	Nov 24, 2025	Details
Grok 4.1 fast reasoning	xAI	1175	—	Verified	Nov 19, 2025	Details
Claude Sonnet 4.5	Anthropic	1152	—	Verified	Sep 29, 2025	Details
Claude Opus 4.1	Anthropic	1148	—	Verified	Aug 5, 2025	Details
o3	OpenAI	1144	—	Verified	Apr 16, 2025	Details
Gemini 2.5 Pro	Google DeepMind	1143	—	Verified	Mar 25, 2025	Details
Grok 4	xAI	1143	—	Verified	Jul 9, 2025	Details
GPT-5	OpenAI	1134	—	Verified	Aug 7, 2025	Details
Claude Opus 4	Anthropic	1128	—	Verified	May 22, 2025	Details
GPT-4o	OpenAI	1006	—	Verified	May 13, 2024	Details