o3

OpenAI · o-series. Released Apr 16, 2025.

o3 is a model from OpenAI in the o-series family, released Apr 16, 2025. evals.report tracks 44 reported o3 benchmark scores across FrontierMath, Berkeley Function Calling Leaderboard, ARC-AGI-1, ARC-AGI-2, SWE-bench Verified, MMMU-Pro, SimpleQA Verified, GPQA Diamond, and 36 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

44 results

Benchmark results 44

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	18.69%	accuracy	Official	Apr 16, 2025	Details
Berkeley Function Calling Leaderboard	Tool use	63.05%	accuracy	Official	Apr 16, 2025	Details
ARC-AGI-1	Reasoning	60.83%	accuracy	Official	Apr 16, 2025	Details
ARC-AGI-2	Reasoning	6.53%	accuracy	Official	Apr 16, 2025	Details
SWE-bench Verified	Coding	62.3%	% resolved	Official	Apr 16, 2025	Details
MMMU-Pro	Multimodal	76.4%	accuracy	Official	Apr 16, 2025	Details
SimpleQA Verified	Other	53.0%	accuracy	Official	Apr 16, 2025	Details
GPQA Diamond	Reasoning	81.8%	accuracy	Official	Apr 16, 2025	Details
AIME (OTIS Mock)	Reasoning	83.9%	accuracy	Official	Apr 16, 2025	Details
LiveCodeBench Pro	Coding	1010	Codeforces Elo	Official	Apr 16, 2025	Details
WeirdML	Coding	52.4%	average accuracy	Official	Apr 16, 2025	Details
Artificial Analysis Intelligence Index	Reasoning	38.4	Index	Unverified	Apr 16, 2025	Details
Epoch Capabilities Index	Reasoning	147.3	Index	Official	Apr 16, 2025	Details
Aider Polyglot	Coding	81.3%	% correct	Official	Apr 16, 2025	Details
MMLU-Pro	Reasoning	85.3%	accuracy	Verified	Apr 16, 2025	Details
GAIA: A Benchmark for General AI Assistants	Agents	32.73%	accuracy	Unverified	Apr 16, 2025	Details
BrowseComp	Agents	49.7%	accuracy	Verified	Apr 16, 2025	Details
τ²-bench (Telecom)	Tool use	58.2%	pass^1	Unverified	Apr 16, 2025	Details
MathVista	Multimodal	86.8%	accuracy	Verified	Apr 16, 2025	Details
GDPval	Agents	753	Elo	Official	Apr 16, 2025	Details
LiveCodeBench	Coding	80.8%	Pass@1	Unverified	Apr 16, 2025	Details
METR Task-Completion Time Horizons	Agents	119.7 min	50% time horizon	Official	Apr 16, 2025	Details
SciCode	Coding	41.0%	accuracy	Unverified	Apr 16, 2025	Details
MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark)	Multimodal	82.9%	accuracy	Verified	Apr 16, 2025	Details
IFBench	Reasoning	69.3%	accuracy	Official	Apr 16, 2025	Details
MultiChallenge	Reasoning	56.62%	accuracy	Verified	Apr 16, 2025	Details
Video-MMMU	Multimodal	83.3%	accuracy	Unverified	Apr 16, 2025	Details
Search Arena	Chat preference	1144	Elo	Verified	Apr 16, 2025	Details
Arena-Hard-Auto v2.0	Chat preference	85.9%	% win rate	Official	Apr 16, 2025	Details
EQ-Bench Creative Writing v3	Chat preference	1744	Elo	Verified	Apr 16, 2025	Details
Design Arena	Chat preference	1074	Elo	Verified	Apr 16, 2025	Details
MASK (Model Alignment between Statements and Knowledge)	Other	84.47	Honesty score	Verified	Apr 16, 2025	Details
MCP-Universe	Tool use	26.41%	Overall Success Rate	Verified	Apr 16, 2025	Details
CharXiv	Multimodal	78.6%	accuracy	Unverified	Apr 16, 2025	Details
FACTS Grounding	Reasoning	36.2%	Grounding accuracy	Verified	Apr 16, 2025	Details
SWE-bench Multimodal	Coding	35.98%	% resolved	Verified	Apr 16, 2025	Details
EnigmaEval	Reasoning	13.09%	accuracy	Verified	Apr 16, 2025	Details
ZeroBench	Multimodal	3.0% (pass@1)	accuracy	Verified	Apr 16, 2025	Details
IMO-Bench	Reasoning	61.1%	accuracy	Verified	Apr 16, 2025	Details
FrontierMath Tier 4	Reasoning	2.1%	accuracy	Official	Apr 16, 2025	Details
Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection)	Agents	2.50%	Attack Success Rate (ASR)	Verified	Apr 16, 2025	Details
Online-Mind2Web	Agents	39.00%	Task success rate	Verified	Apr 16, 2025	Details
GSO: Software Optimization Benchmark for SWE-Agents	Coding	8.82%	Opt@1	Official	Apr 16, 2025	Details
MultiNRC	Reasoning	45.50%	accuracy	Official	Apr 16, 2025	Details