Benchmarks

Prueba de inteligencia

Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.

#1Anthropic

100

Claude Opus 4.7

Tier B

Reasoning95

Coding90

Factual100

#2Anthropic

100

Claude Sonnet 4.6

Tier A

Reasoning95

Coding90

Factual100

#3Anthropic

100

Claude Opus 4.6

Tier B

Reasoning95

Coding90

Factual100

#4Anthropic

100

Claude Opus 4.5

Tier B

Reasoning95

Coding90

Factual100

#5Anthropic

100

Claude Haiku 4.5

Tier A

Reasoning95

Coding90

Factual100

#6Anthropic

100

Claude Sonnet 4.5

Tier B

Reasoning95

Coding90

Factual100

#7Anthropic

100

Claude Opus 4.1

Tier Carchived

Reasoning95

Coding90

Factual100

#8OpenAI

100

gpt-3.5-turbo

Tier C

Reasoning95

Coding90

Factual100

#9OpenAI

100

gpt-3.5-turbo-16k

Tier C

Reasoning95

Coding90

Factual100

#10OpenAI

100

gpt-4-0613

Tier C

Reasoning95

Coding90

Factual100

#11OpenAI

100

gpt-4

Tier C

Reasoning95

Coding90

Factual100

#12OpenAI

100

gpt-3.5-turbo-1106

Tier C

Reasoning95

Coding90

Factual100

#13OpenAI

100

gpt-3.5-turbo-0125

Tier C

Reasoning95

Coding90

Factual100

#14OpenAI

100

gpt-4-turbo

Tier C

Reasoning95

Coding90

Factual100

#15OpenAI

100

gpt-4-turbo-2024-04-09

Tier C

Reasoning95

Coding90

Factual100

#16OpenAI

100

gpt-4o

Tier C

Reasoning95

Coding90

Factual100

#17OpenAI

100

gpt-4o-2024-05-13

Tier C

Reasoning95

Coding90

Factual100

#18OpenAI

100

gpt-4o-mini-2024-07-18

Tier C

Reasoning95

Coding90

Factual100

#19OpenAI

100

gpt-4o-mini

Tier C

Reasoning95

Coding90

Factual100

#20OpenAI

100

gpt-4o-2024-08-06

Tier C

Reasoning95

Coding90

Factual100

#21OpenAI

100

o1-2024-12-17

Tier C

Reasoning95

Coding90

Factual100

#22OpenAI

100

Tier C

Reasoning95

Coding90

Factual100

#23OpenAI

100

o3-mini

Tier C

Reasoning95

Coding90

Factual100

#24OpenAI

100

o3-mini-2025-01-31

Tier C

Reasoning95

Coding90

Factual100

#25OpenAI

100

gpt-4o-2024-11-20

Tier C

Reasoning95

Coding90

Factual100

#26OpenAI

100

o3-2025-04-16

Tier B

Reasoning95

Coding90

Factual100

#27OpenAI

100

o4-mini-2025-04-16

Tier B

Reasoning95

Coding90

Factual100

#28OpenAI

100

Tier C

Reasoning95

Coding90

Factual100

#29OpenAI

100

o4-mini

Tier C

Reasoning95

Coding90

Factual100

#30OpenAI

100

gpt-4.1-2025-04-14

Tier C

Reasoning95

Coding90

Factual100

#31OpenAI

100

gpt-4.1

Tier B

Reasoning95

Coding90

Factual100

#32OpenAI

100

gpt-4.1-mini-2025-04-14

Tier C

Reasoning95

Coding90

Factual100

#33OpenAI

100

gpt-4.1-nano-2025-04-14

Tier C

Reasoning95

Coding90

Factual100

#34OpenAI

100

gpt-4.1-nano

Tier C

Reasoning95

Coding90

Factual100

#35OpenAI

100

gpt-5-2025-08-07

Tier B

Reasoning95

Coding90

Factual100

#36OpenAI

100

gpt-5

Tier C

Reasoning95

Coding90

Factual100

#37OpenAI

100

gpt-5-mini-2025-08-07

Tier B

Reasoning95

Coding90

Factual100

#38OpenAI

100

gpt-5-mini

Tier C

Reasoning95

Coding90

Factual100

#39OpenAI

100

gpt-5-nano-2025-08-07

Tier B

Reasoning95

Coding90

Factual100

#40OpenAI

100

gpt-5-search-api

Tier C

Reasoning95

Coding90

Factual100

#41OpenAI

100

gpt-5-search-api-2025-10-14

Tier B

Reasoning95

Coding90

Factual100

#42OpenAI

100

gpt-5.1-2025-11-13

Tier B

Reasoning95

Coding90

Factual100

#43OpenAI

100

gpt-5.1

Tier B

Reasoning95

Coding90

Factual100

#44OpenAI

100

gpt-5.2-2025-12-11

Tier B

Reasoning95

Coding90

Factual100

#45OpenAI

100

gpt-5.2

Tier B

Reasoning95

Coding90

Factual100

#46OpenAI

100

gpt-5.2-chat-latest

Tier C

Reasoning95

Coding90

Factual100

#47OpenAI

100

gpt-4o-search-preview

Tier C

Reasoning95

Coding90

Factual100

#48OpenAI

100

gpt-5.3-chat-latest

Tier C

Reasoning95

Coding90

Factual100

#49OpenAI

100

gpt-5.4-2026-03-05

Tier B

Reasoning95

Coding90

Factual100

#50OpenAI

100

gpt-5.4

Tier A

Reasoning95

Coding90

Factual100

#51OpenAI

100

gpt-5.4-nano-2026-03-17

Tier A

Reasoning95

Coding90

Factual100

#52OpenAI

100

gpt-5.4-nano

Tier C

Reasoning95

Coding90

Factual100

#53OpenAI

100

gpt-5.4-mini-2026-03-17

Tier A

Reasoning95

Coding90

Factual100

#54OpenAI

100

gpt-5.4-mini

Tier A

Reasoning95

Coding90

Factual100

#55OpenAI

100

gpt-5.5

Tier C

Reasoning95

Coding90

Factual100

#56OpenAI

100

gpt-5.5-2026-04-23

Tier A

Reasoning95

Coding90

Factual100

#57Google Gemini

100

Gemini 2.5 Flash

Tier A

Reasoning95

Coding90

Factual100

#58Google Gemini

100

Gemini Flash Latest

Tier B

Reasoning95

Coding90

Factual100

#59Google Gemini

100

Gemini Flash-Lite Latest

Tier C

Reasoning95

Coding90

Factual100

#60Google Gemini

100

Gemini Pro Latest

Tier C

Reasoning95

Coding90

Factual100

#61Google Gemini

100

Gemini 2.5 Flash-Lite

Tier B

Reasoning95

Coding90

Factual100

#62Google Gemini

100

Gemini 3 Flash Preview

Tier C

Reasoning95

Coding90

Factual100

#63OVH AI Endpoints (GRA)

100

gpt-oss-120b

Tier C

Reasoning95

Coding90

Factual100

#64OVH AI Endpoints (GRA)

100

gpt-oss-20b

Tier C

Reasoning95

Coding90

Factual100

#65Google Gemini

100

Gemini 3.5 Flash

Tier A

Reasoning95

Coding90

Factual100

#66OVH AI Endpoints (GRA)

100

Mistral-Small-3.2-24B-Instruct-2506

Tier B

Reasoning95

Coding90

Factual100

#67OVH AI Endpoints (GRA)

100

Meta-Llama-3_3-70B-Instruct

Tier B

Reasoning95

Coding90

Factual100

#68OVH AI Endpoints (GRA)

100

Qwen3.5-9B

Tier B

Reasoning95

Coding90

Factual100

#69OVH AI Endpoints (GRA)

100

Qwen3.5-397B-A17B

Tier A

Reasoning95

Coding90

Factual100

#70OVH AI Endpoints (GRA)

100

Qwen2.5-VL-72B-Instruct

Tier B

Reasoning95

Coding90

Factual100

#71OVH AI Endpoints (GRA)

100

Qwen3-Coder-30B-A3B-Instruct

Tier B

Reasoning95

Coding90

Factual100

#72OVH AI Endpoints (GRA)

100

Mistral-7B-Instruct-v0.3

Tier C

Reasoning95

Coding90

Factual100

#73Google Gemini

100

Gemini 3.1 Flash Lite

Tier B

Reasoning95

Coding90

Factual100

#74Anthropic

100

Claude Opus 4.8

Tier A

Reasoning95

Coding90

Factual100

#75Anthropic

100

Claude Fable 5

Tier A

Reasoning95

Coding90

Factual100

#76Anthropic

100

Claude Opus 5

Tier A

Reasoning95

Coding90

Factual100

#77OpenAI

gpt-5-nano

Tier C

Reasoning93

Coding88

Factual98

#78Google Gemini

Nano Banana

Tier B

Reasoning92

Coding87

Factual97

#79OpenAI

gpt-4.1-mini

Tier C

Reasoning90

Coding86

Factual95

#80OVH AI Endpoints (GRA)

Qwen3-32B

Tier B

Reasoning90

Coding86

Factual95

#81Z.ai (GLM / Zhipu)

GLM-4.7

Tier A

Reasoning90

Coding86

Factual95

#82Z.ai (GLM / Zhipu)

GLM-4.5

Tier A

Reasoning90

Coding86

Factual95

#83Z.ai (GLM / Zhipu)

GLM-5

Tier A

Reasoning88

Coding84

Factual93

#84Google Gemini

Nano Banana 2

Tier B

Reasoning86

Coding82

Factual91

#85Google Gemini

Gemini 3.1 Pro Preview

Tier C

Reasoning82

Coding77

Factual86

#86Z.ai (GLM / Zhipu)

GLM-5.1

Tier A

Reasoning76

Coding72

Factual80

#87Z.ai (GLM / Zhipu)

GLM-5.2

Tier A

Reasoning71

Coding68

Factual75

#88OpenAI

gpt-4o-mini-search-preview

Tier C

Reasoning67

Coding63

Factual70

#89Z.ai (GLM / Zhipu)

GLM-4.5 Air

Tier B

Reasoning59

Coding56

Factual62

#90OVH AI Endpoints (GRA)

Mistral-Nemo-Instruct-2407

Tier C

Reasoning25

Coding23

Factual26

#91Z.ai (GLM / Zhipu)

GLM-4.5V (vision)

Tier A

Reasoning21

Coding20

Factual22

#92Google Gemini

Gemini Robotics-ER 1.6 Preview

Tier B

Reasoning5

Coding5

Factual5

#93Z.ai (GLM / Zhipu)

GLM-4.6

Tier A

Reasoning2

Coding2

Factual2

#94Google Gemini

Gemini 2.5 Pro

Tier A

Reasoning0

Coding0

Factual0

#95Google Gemini

Gemini 3.1 Pro Preview Custom Tools

Tier C

Reasoning0

Coding0

Factual0

#96Google Gemini

Nano Banana Pro

Tier A

Reasoning0

Coding0

Factual0

#97Z.ai (GLM / Zhipu)

GLM-5 Turbo

Tier B

Reasoning0

Coding0

Factual0

#98Z.ai (GLM / Zhipu)

GLM-4.6V (vision)

Tier A

Reasoning0

Coding0

Factual0

#99Z.ai (GLM / Zhipu)

CogView-4

Tier B

Reasoning0

Coding0

Factual0

99 models scored · category breakdown estimated (full per-category scoring in Q3 2026)