LabsGoogle DeepMind

Google DeepMind

Track Google DeepMind model scores across public AI benchmarks including AIME (OTIS Mock), ECI, GDPval-AA, SciCode, and FrontierMath. Each result is shown one benchmark at a time, with source links and evaluation dates — no blended score or composite ranking. 10 models tracked, spanning Gemini.

10 models287 results deepmind.google

Models 10

Gemini 3.5 Flash

Gemini · gemini 3.5 flash

2026-05-19

29 results

Gemini 3.1 Flash-Lite

Gemini · gemini 3.1 flash lite

2026-03-03

1 results

Gemini 3.1 Pro Preview

Gemini · gemini 3.1 pro preview

2026-02-19

50 results

Gemini 3 Flash

Gemini · gemini 3 flash

2025-12-17

38 results

Gemini 3 Deep Think

Gemini · gemini 3 deep think

2025-12-04

4 results

Gemini 3 Pro

Gemini · gemini 3 pro

2025-11-18

52 results

Gemini 2.5 Flash

Gemini · gemini 2.5 flash

2025-04-17

27 results

Gemini 2.5 Pro

Gemini · gemini 2.5 pro

2025-03-25

50 results

Gemini 2.0 Flash

Gemini · gemini 2.0 flash

2024-12-11

22 results

Gemini 1.5 Pro

Gemini · gemini 1.5 pro

2024-02-15

14 results

Progress by benchmark

Show progress on

Gemini 1.5 Pro

Feb 15, 2024

23.1%

Gemini 2.0 Flash

Dec 11, 2024

31.1%+8.0

Gemini 2.5 Pro

Mar 25, 2025

84.2%+53.1

Gemini 2.5 Flash

Apr 17, 2025

73.1%−11.1

Gemini 3 Pro

Nov 18, 2025

91.4%+18.3

Gemini 3 Flash

Dec 17, 2025

92.8%+1.4

Gemini 3.1 Pro Preview

Feb 19, 2026

95.6%+2.8

Gemini 3.5 Flash

May 19, 2026

95.6%

Single benchmark only

This view shows AIME (OTIS Mock) (accuracy) only. Other benchmarks use different metrics and are not directly comparable.

Progress matrix

Model	SWE-bench Verified % resolved	Terminal-Bench 2.1 task success	DeepSWE % resolved	GPQA Diamond accuracy	LiveCodeBench Pro Codeforces Elo	Humanity's Last Exam accuracy	LiveBench score	SWE-bench Pro % resolved	Berkeley Function Calling Leaderboard accuracy	MMMU-Pro accuracy	LMArena source-defined rating	ARC-AGI-1 accuracy	ARC-AGI-2 accuracy	ARC-AGI-3 accuracy	FrontierMath accuracy	AIME (OTIS Mock) accuracy	SimpleQA Verified accuracy	GBA Eval overall score	WeirdML average accuracy	MCP Atlas pass rate	Remote Labor Index automation rate	Artificial Analysis Intelligence Index Index	Epoch Capabilities Index Index	Aider Polyglot % correct	SWE-rebench Resolved rate (pass@1)	MMLU-Pro accuracy	OSWorld task success rate	GAIA: A Benchmark for General AI Assistants accuracy	BrowseComp accuracy	τ²-bench (Telecom) pass^1	AIME 2026 accuracy	MathVista accuracy	Video-MME accuracy	GDPval Elo	LiveCodeBench Pass@1	METR Task-Completion Time Horizons 50% time horizon	SciCode accuracy	MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) accuracy	AA-Omniscience: Knowledge and Hallucination Benchmark AA-Omniscience Index	IFBench accuracy	MultiChallenge accuracy	OpenAI-MRCR v2 (Multi-Round Coreference Resolution) accuracy (mean SequenceMatcher similarity)	LongBench v2 accuracy	Global-MMLU accuracy	Video-MMMU accuracy	WebDev Arena Elo	Search Arena Elo	Arena-Hard-Auto v2.0 % win rate	EQ-Bench Creative Writing v3 Elo	Design Arena Elo	AILuminate AI Safety Benchmark Safety grade	MASK (Model Alignment between Statements and Knowledge) Honesty score	MCP-Universe Overall Success Rate	CharXiv accuracy	OCRBench v2 accuracy	ScreenSpot-Pro accuracy	FACTS Grounding Grounding accuracy	BigCodeBench calibrated Pass@1	SWE-bench Multilingual % resolved	SWE-bench Multimodal % resolved	SuperGPQA accuracy	EnigmaEval accuracy	ZeroBench accuracy	IMO-Bench accuracy	PutnamBench Problems solved	MathArena HMMT February 2026 accuracy	FrontierMath Tier 4 accuracy	Vectara Hallucination Leaderboard Hallucination Rate	Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection) Attack Success Rate (ASR)	PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts Difficulty-Weighted Accuracy (DW-ACC)	Vibe Code Bench Overall accuracy	Online-Mind2Web Task success rate	WebArena Task success rate	GSO: Software Optimization Benchmark for SWE-Agents Opt@1	MultiNRC accuracy	Terminal-Bench 2.0 task success	SWE-Marathon resolution rate (pass@1)	FrontierCode weighted score (Diamond)	FrontierSWE dominance score	ProgramBench almost-resolved rate	CursorBench score	PostTrainBench weighted average score
Gemini 1.5 Pro Gemini	—	—	—	57.2%	—	—	—	—	—	—	—	—	—	—	—	23.1%	—	—	—	—	—	16	132.8	—	—	—	—	—	—	—	—	63.9%	75.0%	—	—	—	1.5%	65.9%	—	—	—	—	—	—	53.9%	—	—	—	—	—	Good	—	—	—	51.6	—	80.0%	32.4%	—	—	—	—	0.0% (pass@1)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
Gemini 2.0 Flash Gemini	—	—	—	64.1%	—	—	—	—	—	—	—	—	—	—	1.72%	31.1%	—	—	—	—	—	—	135.9	22.2%	—	77.9%	—	32.73%	—	—	—	73.1%	—	566	33.4%	—	33.3%	70.7%	—	—	36.35%	—	51.1%	—	—	—	—	—	1239	—	Good	49.07	—	—	—	—	83.6%	33.8%	—	—	47.73%	0.63%	—	—	—	—	—	—	—	—	—	29.00%	—	—	—	—	—	—	—	—	—	—
Gemini 2.5 Pro Gemini	57.6%	—	—	85.3%	1769	21.64%	—	—	—	68.0%	1457	—	—	—	14.14%	84.2%	56.0%	—	54.0%	8.8%	—	34.6	146.7	83.1%	—	86.2%	—	33.3%	—	—	—	—	84.8%	919	80.1%	—	42.8%	81.7%	—	52.3%	53.62%	58.0%	63.3%	90.3%	83.6%	1204	1143	79.0%	1417	1208	—	55.67	22.08%	—	59.3	11.4%	74.2%	36.5%	—	—	—	5.57%	3.0% (pass@1)	68.2%	3	—	4.2%	7.0%	8.5%	52.2	0.40%	—	54.8%	3.92%	45.12%	—	—	—	—	—	—	—
Gemini 2.5 Flash Gemini	—	—	—	—	1288	12.1%	—	—	56.24%	—	1417	—	—	—	4.84%	73.1%	—	—	40.9%	3.4%	—	20.6	143.4	61.9%	—	83.2%	—	—	—	—	—	—	—	1071	49.5%	—	29.1%	79.7%	—	—	—	—	62.1%	—	—	—	—	68.6%	1243	1113	—	49.13	21.65%	—	—	—	69.9%	—	—	—	—	2.70%	3.0% (pass@1)	—	—	—	4.2%	7.8%	—	—	—	—	—	—	—	—	—	—	—	—	—	—
Gemini 3 Pro Gemini	72.9%	—	—	92.6%	2439	38.3%	73.39%	43.30%	72.51%	81.0%	1479	75%	31.11%	—	37.6%	91.4%	72.9%	—	69.9%	54.1%	1.25%	48.4	153.4	—	56.5%	89.8%	—	38.5%	—	85.4%	91.67%	—	—	1184	91.7%	224.3 min	56.1%	—	—	—	65.67%	77.0%	—	92.2%	87.6%	1438	1208	—	1504	1295	—	42.60	44.59%	81.4%	63.4	72.7%	69.0%	—	68.7%	—	—	18.24%	19.0% (pass@5)	—	—	86.36%	18.8%	13.6%	—	—	14.30%	—	—	18.63%	58.96%	—	—	—	—	—	—	18.12%
Gemini 3 Deep Think Gemini	—	—	—	—	3298	—	—	—	—	—	—	96%	84.58%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	1324	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
Gemini 3 Flash Gemini	75.4%	—	5.16%	83.2%	2316	36.6%	—	34.63%	—	—	1466	84.67%	33.61%	—	35.64%	92.8%	67.4%	—	61.6%	—	—	35	150.9	—	57.6%	89.0%	—	35.2%	—	—	95.83%	—	—	1204	79.7%	—	50.6%	—	—	—	—	22.1%	—	91.4%	86.9%	1437	1206	—	—	1244	—	—	—	80.3%	—	69.1%	—	—	72.7%	—	—	—	13.0% (pass@5)	—	—	89.39%	4.2%	13.5%	—	—	20.20%	—	—	9.8%	—	—	—	—	—	0.0%	—	—
Gemini 3.1 Pro Preview Gemini	75.6%	—	9.88%	94.1%	2887	45.9%	79.93%	46.10%	—	80.5%	1481	98%	77.08%	0.42%	36.9%	95.6%	77.3%	0.8%	72.1%	—	—	57	156.6	—	—	90.99%	76.2%	46.1%	—	95.6%	98.33%	—	—	1314	—	384.1 min	58.9%	—	33	77.1%	71.37%	26.3%	—	93.2%	—	1448	1216	—	1479	1282	—	42.40	—	—	—	84.4%	—	—	—	—	—	19.76%	19.0% (pass@5)	—	—	94.70%	16.7%	10.4%	—	—	32.03%	—	—	22.55%	64.74%	—	—	4.7%	40%	0.0%	—	21.59%
Gemini 3.1 Flash-Lite Gemini	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	0.7%	—	—	—	—
Gemini 3.5 Flash Gemini	—	—	28.32%	92.8%	—	42.5%	75.02%	—	—	—	1482	92.5%	72.08%	—	38.97%	95.6%	68.4%	6.7%	62.6%	—	—	55.3	156.3	—	—	—	78.4%	—	—	95.3%	95.00%	—	—	1659	—	—	53.1%	—	23	76.3%	—	26.6%	—	—	—	1506	—	—	—	1297	—	—	—	84.2%	—	—	—	—	—	—	—	—	—	—	—	95.45%	14.6%	—	—	—	48.68%	—	—	—	—	—	—	—	—	—	49.8%	—

Scores are not normalised across benchmarks. Each column uses its own metric. Compare columns independently.

Google DeepMind

Models 10

Progress by benchmark

Progress matrix

Related pages