Benchmarks

Intelligence test

Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.

#1Anthropic

100

Claude Opus 4.7

Tier B

Reasoning95

Coding90

Factual100

#2Anthropic

100

Claude Sonnet 4.6

Tier A

Reasoning95

Coding90

Factual100

#3Anthropic

100

Claude Opus 4.6

Tier B

Reasoning95

Coding90

Factual100

#4Anthropic

100

Claude Opus 4.5

Tier B

Reasoning95

Coding90

Factual100

#5Anthropic

100

Claude Sonnet 4.5

Tier B

Reasoning95

Coding90

Factual100

#6Anthropic

100

Claude Opus 4.1

Tier C

Reasoning95

Coding90

Factual100

#7OpenAI

100

gpt-3.5-turbo

Tier C

Reasoning95

Coding90

Factual100

#8OpenAI

100

gpt-3.5-turbo-1106

Reasoning95

Coding90

Factual100

#9OpenAI

100

gpt-4-turbo

Tier C

Reasoning95

Coding90

Factual100

#10OpenAI

100

gpt-4-turbo-2024-04-09

Tier C

Reasoning95

Coding90

Factual100

#11OpenAI

100

gpt-4o-2024-08-06

Tier C

Reasoning95

Coding90

Factual100

#12OpenAI

100

gpt-4o-2024-11-20

Tier C

Reasoning95

Coding90

Factual100

#13OpenAI

100

gpt-4o-mini-search-preview

Tier C

Reasoning95

Coding90

Factual100

#14OpenAI

100

gpt-4.1

Tier B

Reasoning95

Coding90

Factual100

#15OpenAI

100

gpt-4.1-mini-2025-04-14

Reasoning95

Coding90

Factual100

#16OpenAI

100

gpt-4.1-mini

Tier C

Reasoning95

Coding90

Factual100

#17OpenAI

100

gpt-5-chat-latest

Tier C

Reasoning95

Coding90

Factual100

#18OpenAI

100

gpt-5-search-api

Tier C

Reasoning95

Coding90

Factual100

#19OpenAI

100

gpt-5-search-api-2025-10-14

Reasoning95

Coding90

Factual100

#20OpenAI

100

gpt-4o-search-preview

Tier C

Reasoning95

Coding90

Factual100

#21Google Gemini

100

Gemini Flash-Lite Latest

Tier C

Reasoning95

Coding90

Factual100

#22OVH AI Endpoints (GRA)

100

Qwen2.5-VL-72B-Instruct

Reasoning95

Coding90

Factual100

#23OVH AI Endpoints (GRA)

100

Qwen3-Coder-30B-A3B-Instruct

Reasoning95

Coding90

Factual100

#24Google Gemini

100

Gemini 3.1 Flash Lite

Reasoning95

Coding90

Factual100

#25Anthropic

100

Claude Opus 4.8

Tier A

Reasoning95

Coding90

Factual100

#26OpenAI

gpt-4-0613

Reasoning94

Coding89

Factual99

#27OpenAI

gpt-4

Tier C

Reasoning94

Coding89

Factual99

#28OpenAI

gpt-4o-search-preview-2025-03-11

Reasoning94

Coding89

Factual99

#29OpenAI

gpt-4o

Tier C

Reasoning93

Coding88

Factual98

#30OpenAI

gpt-4o-2024-05-13

Tier C

Reasoning93

Coding88

Factual98

#31OVH AI Endpoints (GRA)

Mistral-Small-3.2-24B-Instruct-2506

Reasoning93

Coding88

Factual98

#32OpenAI

gpt-4.1-2025-04-14

Reasoning92

Coding87

Factual97

#33OpenAI

gpt-4.1-nano-2025-04-14

Reasoning92

Coding87

Factual97

#34Google Gemini

Nano Banana

Reasoning92

Coding87

Factual97

#35OVH AI Endpoints (GRA)

Meta-Llama-3_3-70B-Instruct

Reasoning92

Coding87

Factual97

#36Anthropic

Claude Haiku 4.5

Tier A

Reasoning91

Coding86

Factual96

#37OpenAI

gpt-4o-mini-search-preview-2025-03-11

Reasoning91

Coding86

Factual96

#38Google Gemini

Gemini 2.5 Flash-Lite

Tier B

Reasoning90

Coding86

Factual95

#39OpenAI

gpt-4.1-nano

Tier C

Reasoning86

Coding82

Factual91

#40Google Gemini

Nano Banana 2

Reasoning86

Coding82

Factual91

#41OVH AI Endpoints (GRA)

Qwen3-32B

Reasoning86

Coding82

Factual91

#42OpenAI

gpt-3.5-turbo-16k

Reasoning71

Coding68

Factual75

#43OpenAI

gpt-4o-mini

Tier C

Reasoning69

Coding66

Factual73

#44OpenAI

gpt-4o-mini-2024-07-18

Tier C

Reasoning60

Coding57

Factual63

#45OpenAI

gpt-3.5-turbo-0125

Reasoning50

Coding48

Factual53

#46OVH AI Endpoints (GRA)

Mistral-Nemo-Instruct-2407

Reasoning50

Coding48

Factual53

#47OVH AI Endpoints (GRA)

Mistral-7B-Instruct-v0.3

Reasoning48

Coding46

Factual51

#48OVH AI Endpoints (GRA)

Llama-3.1-8B-Instruct

Reasoning46

Coding43

Factual48

#49Google Gemini

Gemini 3.5 Flash

Tier A

Reasoning17

Coding16

Factual18

#50Google Gemini

Gemini 2.5 Flash

Tier A

Reasoning5

Coding5

Factual5

#51Google Gemini

Gemini Flash Latest

Tier B

Reasoning5

Coding5

Factual5

#52Google Gemini

Gemini 3.1 Pro Preview

Tier C

Reasoning5

Coding5

Factual5

#53Google Gemini

Gemini Robotics-ER 1.6 Preview

Reasoning5

Coding5

Factual5

#54Google Gemini

Gemini 2.5 Pro

Tier A

Reasoning0

Coding0

Factual0

#55Google Gemini

Gemini Pro Latest

Tier C

Reasoning0

Coding0

Factual0

#56Google Gemini

Gemini 3 Flash Preview

Tier C

Reasoning0

Coding0

Factual0

#57Google Gemini

Gemini 3.1 Pro Preview Custom Tools

Tier C

Reasoning0

Coding0

Factual0

#58Google Gemini

Nano Banana Pro

Reasoning0

Coding0

Factual0

#59Google Gemini

Nano Banana Pro

Reasoning0

Coding0

Factual0

#60OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C

Reasoning0

Coding0

Factual0

#61OVH AI Endpoints (GRA)

gpt-oss-20b

Tier C

Reasoning0

Coding0

Factual0

#62OVH AI Endpoints (GRA)

Qwen3.5-9B

Reasoning0

Coding0

Factual0

#63OVH AI Endpoints (GRA)

Qwen3.5-397B-A17B

Reasoning0

Coding0

Factual0

63 models scored · category breakdown estimated (full per-category scoring in Q3 2026)