Grok 4

xAI · Grok. Released Jul 9, 2025.

Grok 4 is a model from xAI in the Grok family, released Jul 9, 2025. evals.report tracks 29 reported Grok 4 benchmark scores across FrontierMath, Berkeley Function Calling Leaderboard, ARC-AGI-1, GPQA Diamond, Humanity's Last Exam, SimpleQA Verified, AIME (OTIS Mock), ARC-AGI-2, and 21 more — each shown with its benchmark, metric, source status, and date, and never combined into a single ranking.

29 results

Benchmark results 29

Compare this model

Benchmark	Category	Score	Metric	Status	Date
FrontierMath	Reasoning	19.66%	accuracy	Official	Jul 9, 2025	Details
Berkeley Function Calling Leaderboard	Tool use	62.97%	accuracy	Official	Jul 9, 2025	Details
ARC-AGI-1	Reasoning	66.67%	accuracy	Official	Jul 9, 2025	Details
GPQA Diamond	Reasoning	87.0%	accuracy	Official	Jul 9, 2025	Details
Humanity's Last Exam	Reasoning	24.52%	accuracy	Official	Jul 9, 2025	Details
SimpleQA Verified	Other	47.9%	accuracy	Official	Jul 9, 2025	Details
AIME (OTIS Mock)	Reasoning	84.0%	accuracy	Official	Jul 9, 2025	Details
ARC-AGI-2	Reasoning	15.97%	accuracy	Official	Jul 9, 2025	Details
LMArena	Chat preference	1409	source-defined rating	Official	Jul 9, 2025	Details
WeirdML	Coding	45.7%	average accuracy	Official	Jul 9, 2025	Details
Artificial Analysis Intelligence Index	Reasoning	41.5	Index	Unverified	Jul 9, 2025	Details
Epoch Capabilities Index	Reasoning	147.4	Index	Official	Jul 9, 2025	Details
Aider Polyglot	Coding	79.6%	% correct	Official	Jul 9, 2025	Details
MMLU-Pro	Reasoning	86.6%	accuracy	Verified	Jul 9, 2025	Details
GDPval	Agents	989	Elo	Official	Jul 9, 2025	Details
LiveCodeBench	Coding	81.9%	Pass@1	Unverified	Jul 9, 2025	Details
METR Task-Completion Time Horizons	Agents	109 min	50% time horizon	Official	Jul 9, 2025	Details
SciCode	Coding	45.7%	accuracy	Unverified	Jul 9, 2025	Details
Global-MMLU	Reasoning	89.5%	accuracy	Unverified	Jul 9, 2025	Details
Search Arena	Chat preference	1143	Elo	Verified	Jul 9, 2025	Details
Design Arena	Chat preference	1070	Elo	Verified	Jul 9, 2025	Details
MCP-Universe	Tool use	33.33%	Overall Success Rate	Verified	Jul 9, 2025	Details
OCRBench v2	Multimodal	45.0	accuracy	Verified	Jul 9, 2025	Details
FACTS Grounding	Reasoning	54.7%	Grounding accuracy	Verified	Jul 9, 2025	Details
ZeroBench	Multimodal	1.0% (pass@1)	accuracy	Verified	Jul 9, 2025	Details
IMO-Bench	Reasoning	73.1%	accuracy	Verified	Jul 9, 2025	Details
FrontierMath Tier 4	Reasoning	2.1%	accuracy	Official	Jul 9, 2025	Details
Gray Swan Arena (Agent Red-Teaming / Indirect Prompt Injection)	Agents	2.9%	Attack Success Rate (ASR)	Verified	Jul 9, 2025	Details
Remote Labor Index	Agents	2.08%	automation rate	Official	Jul 9, 2025	Details