AI labs — model benchmark scores & progress | evals.report

Benchmarks Labs Compare Run guides In the wild

Model lab for OpenAI public benchmark rows.

21models508results

Model lab for Claude public benchmark rows.

15models459results

Google DeepMind

Model lab for Gemini public benchmark rows.

10models287results

Model lab for Llama and Meta public benchmark rows.

5models89results

Model lab for DeepSeek public benchmark rows.

7models152results

Model provider for Grok-family public benchmark rows.

6models73results

Model provider for Qwen-family public benchmark rows.

9models111results

Model provider for GLM-family public benchmark rows.

5models99results

Model provider for Kimi-family public benchmark rows.

4models101results

Model provider for ERNIE public benchmark rows.

1models2results

Model provider for Mistral-family public benchmark rows.

2models25results

Model provider for Command-family public benchmark rows.

1models1results

Model provider for MiniMax public benchmark rows.

4models50results

Model provider for DeepReinforce (Ornith-family) public benchmark rows.

1models4results

Provider for the Manus agent product's public benchmark rows.

1models1results

Source-reported agent or scaffold entries where the benchmark row is not a single base model.

17models24results

Model provider for Microsoft AI (MAI) public benchmark rows.

2models9results

Model provider for Nemotron-family public benchmark rows.

2models17results

Model provider for Doubao / Seed public benchmark rows.

2models7results

Model provider for Hunyuan public benchmark rows.

1models1results

Model provider for MiMo-family public benchmark rows.

2models18results

Model provider for Amazon Nova public benchmark rows.

2models13results

Allen Institute for AI

Model provider for OLMo fully-open public benchmark rows.

1models2results

Model provider for EXAONE-family public benchmark rows.

1models4results

Model provider for Step-family public benchmark rows.

1models5results

Model provider for Solar-family public benchmark rows.

1models3results

Model provider for Reka-family public benchmark rows.

1models3results

Model provider for Granite-family public benchmark rows.

1models1results

Model provider for Jamba-family public benchmark rows.

1models5results

Model provider for the Nex-N2 agentic-model public benchmark rows (open-weight, post-trained on Qwen3.5).

2models14results

Maker of Devin and the SWE-family coding models (Windsurf/Devin); creator of the FrontierCode benchmark.

2models3results

Provider of the Fugu multi-agent system, delivered as a single API that dynamically orchestrates multiple underlying LLMs.

2models14results

Thinking Machines Lab

Model provider for Inkling-family open-weights public benchmark rows.

1models14results