Compare models on selected benchmarks | evals.report

Benchmarks Labs Compare Run guides

Models

1 selected

GPT-4oOpenAI

Benchmarks

2 selected

SWE-bench VerifiedCodingGPQA DiamondReasoning

Benchmark	GPT-4oOpenAI
SWE-bench Verified% resolved	31.0%
GPQA Diamondaccuracy	49.2%

SWE-bench Verified

% resolved

GPT-4o · OpenAI

31.0%

GPQA Diamond

accuracy

GPT-4o · OpenAI

49.2%

No aggregate score is calculated. Each row uses its benchmark’s own metric. Compare rows independently.