LabsOpenAI

OpenAI

Track OpenAI model scores across public AI benchmarks including GPQA Diamond, ECI, GDPval-AA, FrontierMath, and AIME (OTIS Mock). Each result is shown one benchmark at a time, with source links and evaluation dates — no blended score or composite ranking. 21 models tracked, spanning GPT, o-series, OpenAI o-series (o3), and GPT OSS.

Model	SWE-bench Verified % resolved	Terminal-Bench 2.1 task success	DeepSWE % resolved	GPQA Diamond accuracy	LiveCodeBench Pro Codeforces Elo	Humanity's Last Exam accuracy	LiveBench score	SWE-bench Pro % resolved	Berkeley Function Calling Leaderboard accuracy	MMMU-Pro accuracy	LMArena source-defined rating	ARC-AGI-1 accuracy	ARC-AGI-2 accuracy	ARC-AGI-3 accuracy	FrontierMath accuracy	AIME (OTIS Mock) accuracy	SimpleQA Verified accuracy	GBA Eval overall score	WeirdML average accuracy	MCP Atlas pass rate	Remote Labor Index automation rate	Artificial Analysis Intelligence Index Index	Epoch Capabilities Index Index	Aider Polyglot % correct	SWE-rebench Resolved rate (pass@1)	MMLU-Pro accuracy	OSWorld task success rate	GAIA: A Benchmark for General AI Assistants accuracy	BrowseComp accuracy	τ²-bench (Telecom) pass^1	AIME 2026 accuracy	MathVista accuracy	Video-MME accuracy	GDPval Elo	LiveCodeBench Pass@1	METR Task-Completion Time Horizons 50% time horizon	SciCode accuracy	MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) accuracy	AA-Omniscience: Knowledge and Hallucination Benchmark AA-Omniscience Index	IFBench accuracy	MultiChallenge accuracy	OpenAI-MRCR v2 (Multi-Round Coreference Resolution) accuracy (mean SequenceMatcher similarity)	LongBench v2 accuracy	Global-MMLU accuracy	Video-MMMU accuracy	WebDev Arena Elo	Search Arena Elo	Arena-Hard-Auto v2.0 % win rate	EQ-Bench Creative Writing v3 Elo	Design Arena Elo	AILuminate AI Safety Benchmark Safety grade	MASK (Model Alignment between Statements and Knowledge) Honesty score	MCP-Universe Overall Success Rate	CharXiv accuracy	OCRBench v2 accuracy	ScreenSpot-Pro accuracy	FACTS Grounding Grounding accuracy	BigCodeBench calibrated Pass@1	SWE-bench Multilingual % resolved	SWE-bench Multimodal % resolved	SuperGPQA accuracy	EnigmaEval accuracy	ZeroBench accuracy	IMO-Bench accuracy	PutnamBench Problems solved	MathArena HMMT February 2026 accuracy	FrontierMath Tier 4 accuracy	Vectara Hallucination Leaderboard Hallucination Rate	Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection) Attack Success Rate (ASR)	PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts Difficulty-Weighted Accuracy (DW-ACC)	Vibe Code Bench Overall accuracy	Online-Mind2Web Task success rate	WebArena Task success rate	GSO: Software Optimization Benchmark for SWE-Agents Opt@1	MultiNRC accuracy	Terminal-Bench 2.0 task success	SWE-Marathon resolution rate (pass@1)	FrontierCode weighted score (Diamond)	FrontierSWE dominance score	ProgramBench almost-resolved rate	CursorBench score	PostTrainBench weighted average score
GPT-4o GPT	31.0%	—	—	49.2%	210	2.7%	—	—	—	51.9%	—	—	—	—	0.34%	6.4%	—	—	—	7.2%	—	17.3	129.4	23.1%	—	—	—	—	0.6%	23.5%	—	63.8%	71.9%	378	—	7.0 min	1.5%	69.1%	—	—	—	—	51.4%	—	61.2%	—	1006	—	1484	915	Good	60.07	15.58%	58.8%	47.6	—	78.8%	34.5%	—	30.37%	44.40%	0.80%	0.0% (pass@1)	—	1	—	—	9.6%	2.41%	13.7	—	30.7%	42.8%	0.0%	12.42%	—	—	—	—	—	—	—
GPT-4.1 GPT	48.5%	—	—	66.9%	606	—	—	—	53.96%	—	—	—	—	—	5.52%	38.3%	—	—	39.0%	—	—	26.3	137.6	52.4%	—	80.6%	—	50.30%	—	34%	—	72.2%	—	776	45.7%	—	38.1%	74.8%	—	—	39.43%	—	—	—	—	—	—	50.0%	1419	1080	—	51.13	19.91%	56.7%	—	—	45.6%	33.8%	—	31.14%	—	2.17%	0.0% (pass@1)	—	—	—	—	5.6%	—	26.4	—	36.33%	—	—	21.23%	—	—	—	—	—	—	—
o3 o-series	62.3%	—	—	81.8%	1010	—	—	—	63.05%	76.4%	—	60.83%	6.53%	—	18.69%	83.9%	53.0%	—	52.4%	—	—	38.4	147.3	81.3%	—	85.3%	—	32.73%	49.7%	58.2%	—	86.8%	—	753	80.8%	119.7 min	41.0%	82.9%	—	69.3%	56.62%	—	—	—	83.3%	—	1144	85.9%	1744	1074	—	84.47	26.41%	78.6%	—	—	36.2%	—	—	35.98%	—	13.09%	3.0% (pass@1)	61.1%	—	—	2.1%	—	2.50%	—	—	39.00%	—	8.82%	45.50%	—	—	—	—	—	—	—
o4-mini o-series	—	—	—	79.6%	2092	—	—	—	53.24%	—	—	58.67%	6.11%	—	24.83%	81.7%	23.9%	—	52.6%	—	—	—	146.9	72.0%	—	83.2%	—	36.8%	28.3%	42%	—	84.3%	—	1008	85.9%	—	46.5%	81.6%	—	—	44.90%	—	—	—	—	—	—	74.6%	—	1030	—	78.60	25.97%	72.0%	—	—	29.3%	—	—	33.85%	—	9.21%	2.0% (pass@1)	67.9%	2	—	6.3%	18.6%	—	45.6	—	32.00%	—	3.6%	22.18%	—	—	—	—	—	—	—
OpenAI o3-pro OpenAI o-series (o3)	—	—	—	84%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	40.7	148.1	84.9%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	62.40%	—	—	—	—	—	—	—	—	—	—	82.50	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	23.3%	—	—	—	—	—	—	49.00%	—	—	—	—	—	—	—
GPT-OSS-120B GPT OSS	—	—	—	75.8%	1299	—	—	16.20%	—	—	1365	—	—	—	—	88.9%	13.9%	—	48.2%	—	—	33.3	140.8	41.8%	—	80.8%	—	—	—	65.8%	—	—	—	947	87.8%	—	38.9%	—	-50	69.0%	45.34%	—	—	82.8%	—	—	—	—	1041	1017	—	92.00	25.54%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	14.2%	—	—	—	—	—	—	15.17%	—	—	—	—	—	—	—
GPT-5 GPT	73.6%	—	—	86.2%	2176	25.32%	—	41.78%	—	78.4%	1405	65.67%	9.86%	—	32.41%	91.4%	50.6%	—	60.7%	44.5%	—	44.6	150.0	88.0%	—	87.1%	—	42.1%	54.9%	96.7%	—	—	—	1294	84.6%	203.0 min	42.9%	84.2%	—	—	63.19%	—	—	90.7%	84.6%	1394	1134	—	1640	1223	—	79.33	44.16%	81.1%	55.5	—	69.6%	—	—	—	—	10.47%	1.0% (pass@1)	65.6%	28/660	—	12.5%	15.1%	2.0%	—	20.09%	42.33%	—	6.86%	52.13%	—	—	—	—	—	—	—
GPT-5 mini GPT	64.7%	—	—	75.0%	—	19.4%	—	—	55.46%	—	—	54.33%	4.44%	—	27.24%	86.7%	21.0%	—	52.7%	—	—	—	145.6	—	—	83.7%	—	44.8%	—	—	—	—	—	1184	83.8%	—	41.0%	—	—	—	58.99%	—	—	87.4%	—	—	—	—	1298	1170	—	82.60	—	—	—	—	58.3%	—	39.7%	—	—	8.19%	4.0% (pass@1)	—	—	—	6.3%	12.9%	—	—	14.17%	—	—	—	23.89%	—	—	—	—	—	—	—
GPT-5.1 GPT	68.0%	—	—	87.6%	2269	27.2%	—	—	—	79.0%	1422	72.83%	17.64%	—	31.03%	88.6%	48.9%	—	60.8%	—	—	47.7	149.7	—	—	87.0%	—	—	—	95.6%	—	—	—	1227	86.8%	—	43.3%	85.4%	—	—	63.41%	61.6%	—	90.6%	—	1391	1199	—	—	1216	—	86.33	—	—	—	3.5%	50.0%	—	—	—	—	11.23%	5.0% (pass@5)	—	—	—	12.5%	12.1%	2.5%	—	24.61%	—	—	13.73%	49.00%	—	—	—	—	—	—	—
GPT-5.2 GPT	73.8%	—	—	91.4%	2393	29.9%	74.84%	29.94%	55.87%	80.4%	1411	86.17%	52.91%	—	40.7%	96.1%	38.9%	—	72.2%	—	2.5%	51.3	153.7	—	—	85.9%	47.3%	40.3%	—	98.7%	98.33%	—	—	1467	89.4%	352.2 min	46.2%	—	—	—	—	—	—	89.8%	85.9%	1404	1210	—	1783	1224	—	86.67	—	82.1%	50.5	86.3%	—	—	66.7%	—	—	10.39%	17.0% (pass@5)	—	—	96.97%	18.8%	10.8%	—	—	53.50%	—	—	27.45%	42.18%	—	—	—	—	—	—	21.38%
GPT-5.2-Codex GPT	—	—	—	—	—	—	—	41.04%	—	—	—	—	—	—	—	—	—	—	—	—	—	49	—	—	—	—	—	—	—	—	—	—	—	1288	—	—	54.6%	—	—	—	—	—	—	—	—	1335	—	—	—	—	—	—	—	—	—	—	—	—	66.3%	—	—	—	—	—	—	—	—	—	—	—	37.91%	—	—	—	—	—	—	—	—	—	—	17.22%
GPT-5.3-Codex GPT	74.8%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	77.9%	—	—	53.6	155.9	—	58.2%	—	64.7%	—	—	—	—	—	—	1482	—	349.5 min	53.2%	—	—	—	—	—	—	—	—	1407	—	—	—	1199	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	61.77%	—	—	—	—	77.3%	—	—	—	—	—	17.76%
GPT-5.4 GPT	76.9%	—	55.53%	93.3%	—	40.28%	80.28%	59.10%	—	82.1%	1472	93.67%	73.95%	0.21%	47.6%	95.3%	44.8%	31.6%	77.7%	—	—	56.8	156.1	—	—	—	75.0%	48.2%	—	87.1%	99.17%	—	—	1674	—	341.7 min	56.6%	—	6	73.9%	—	—	—	—	—	1388	1199	—	2003	1264	—	89.67	—	—	—	85.4%	—	—	—	—	—	15.96%	23.0% (pass@5)	—	—	97.73%	27.1%	7.0%	—	—	67.42%	92.8%	—	31.37%	58.29%	75.1%	—	—	54%	0.0%	—	20.23%
GPT-5.4 Pro GPT	—	—	—	94.6%	—	—	—	—	—	—	—	94.5%	83.33%	—	50.0%	—	47.8%	—	—	—	—	—	157.7	—	—	—	—	50.5%	—	—	—	—	—	—	—	—	—	—	—	—	69.23%	—	—	—	—	—	—	—	—	—	—	91.73	—	—	—	—	—	—	—	—	—	23.82%	—	—	—	—	37.5%	8.3%	—	—	—	—	—	—	62.27%	—	—	—	—	—	—	—
GPT-5.4-mini GPT	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	4.6%	—	—	—	—
GPT-5.5 GPT	80.6%	—	70.05%	94.0%	—	43.56%	80.71%	58.6%	—	—	1468	95%	85%	0.43%	51.7%	100.0%	63.1%	53.2%	84.9%	—	6.25%	60	158.2	—	—	—	78.7%	—	—	93.9%	97.50%	—	—	1769	—	—	—	—	20	75.9%	—	74.0%	—	—	—	1505	1239	—	2035	1301	—	—	—	84.1%	—	—	—	—	—	—	—	—	22.0% (pass@5)	—	—	97.73%	35.4%	9.3%	—	—	69.85%	—	—	40.2%	—	—	—	6.3%	73%	13.5%	64.3%	25.02%
GPT-5.5 Pro GPT	—	—	—	93.9%	—	—	—	—	—	—	—	96.5%	84.58%	—	52.4%	100.0%	64.5%	—	—	—	—	—	159.3	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	39.6%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
GPT-5.6 Sol GPT	—	88.8%	—	94.6%	—	—	—	64.6%	—	83.0%	—	—	—	7.78%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	90.4%	—	—	—	—	—	—	—	—	—	—	—	—	73.8%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
GPT-5.6 Sol Ultra GPT	—	91.9%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	92.2%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
GPT-5.6 Terra GPT	—	87.4%	—	92.9%	—	—	—	63.4%	—	80.7%	—	—	—	0.8%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	87.5%	—	—	—	—	—	—	—	—	—	—	—	—	72.5%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
GPT-5.6 Luna GPT	—	84.7%	—	92.3%	—	—	—	62.7%	—	78.4%	—	—	—	0.18%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	83.3%	—	—	—	—	—	—	—	—	—	—	—	—	41.3%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—

OpenAI

Models 21

Progress by benchmark

Progress matrix

Related pages