DeepSeek V3.2

DeepSeek · DeepSeek. Released Dec 1, 2025.

DeepSeek V3.2 is a model from DeepSeek in the DeepSeek family, released Dec 1, 2025. evals.report tracks 31 reported DeepSeek V3.2 benchmark scores across FrontierMath, Berkeley Function Calling Leaderboard, ARC-AGI-1, SWE-bench Pro, AIME (OTIS Mock), GPQA Diamond, SimpleQA Verified, ARC-AGI-2, and 23 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

Open31 results

Benchmark results 31

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	22.1%	accuracy	Official	Dec 1, 2025	Details
Berkeley Function Calling Leaderboard	Tool use	56.73%	accuracy	Official	Dec 1, 2025	Details
ARC-AGI-1	Reasoning	57%	accuracy	Official	Dec 1, 2025	Details
SWE-bench Pro	Coding	15.56%	% resolved	Official	Dec 1, 2025	Details
AIME (OTIS Mock)	Reasoning	87.8%	accuracy	Official	Dec 1, 2025	Details
GPQA Diamond	Reasoning	83.4%	accuracy	Official	Dec 1, 2025	Details
SimpleQA Verified	Other	27.5%	accuracy	Official	Dec 1, 2025	Details
ARC-AGI-2	Reasoning	4.03%	accuracy	Official	Dec 1, 2025	Details
LMArena	Chat preference	1423	source-defined rating	Official	Dec 1, 2025	Details
WeirdML	Coding	39.5%	average accuracy	Official	Dec 1, 2025	Details
Artificial Analysis Intelligence Index	Reasoning	32	Index	Official	Dec 1, 2025	Details
Epoch Capabilities Index	Reasoning	146.5	Index	Official	Dec 1, 2025	Details
Aider Polyglot	Coding	74.2%	% correct	Official	Dec 1, 2025	Details
SWE-rebench	Coding	60.9%	Resolved rate (pass@1)	Unverified	Dec 1, 2025	Details
MMLU-Pro	Reasoning	86.2%	accuracy	Verified	Dec 1, 2025	Details
GAIA: A Benchmark for General AI Assistants	Agents	34.8%	accuracy	Unverified	Dec 1, 2025	Details
BrowseComp	Agents	40.1%	accuracy	Unverified	Dec 1, 2025	Details
AIME 2026	Reasoning	94.17%	accuracy	Official	Dec 1, 2025	Details
GDPval	Agents	1197	Elo	Official	Dec 1, 2025	Details
LiveCodeBench	Coding	59.3%	Pass@1	Unverified	Dec 1, 2025	Details
SciCode	Coding	38.7%	accuracy	Unverified	Dec 1, 2025	Details
Global-MMLU	Reasoning	86.5%	accuracy	Unverified	Dec 1, 2025	Details
WebDev Arena	Chat preference	1332	Elo	Verified	Dec 1, 2025	Details
EQ-Bench Creative Writing v3	Chat preference	1515	Elo	Verified	Dec 1, 2025	Details
Design Arena	Chat preference	1220	Elo	Verified	Dec 1, 2025	Details
MCP-Universe	Tool use	19.91%	Overall Success Rate	Verified	Dec 1, 2025	Details
SWE-bench Multilingual	Coding	59.0%	% resolved	Official	Dec 1, 2025	Details
MathArena HMMT February 2026	Reasoning	84.09%	accuracy	Official	Dec 1, 2025	Details
FrontierMath Tier 4	Reasoning	2.1%	accuracy	Official	Dec 1, 2025	Details
Vectara Hallucination Leaderboard	Other	6.3%	Hallucination Rate	Official	Dec 1, 2025	Details
Terminal-Bench 2.0	Agents	39.6%	task success	Official	Dec 1, 2025	Details