Benchmarks

Language performance

How well does each AI model perform when prompted in different languages? Scores are based on multilingual benchmark prompts written in native 6 languages.

Tests run weekly · Models with image/audio/TTS capabilities excluded

🇬🇧

English

1 benchmark runs · English

#	Model	Score	Runs
1	o4-mini-2025-04-16OpenAI	100.0	1
2	gpt-5.3-chat-latestOpenAI	100.0	1
3	o3-2025-04-16OpenAI	100.0	1
4	gpt-5.1OpenAI	100.0	1
5	Claude Fable 5Anthropic	100.0	1

🇳🇱

Nederlands

1 benchmark runs · Dutch

#	Model	Score	Runs
1	Gemini 3.1 Flash LiteGoogle Gemini	100.0	1
2	Claude Opus 4.8Anthropic	100.0	1
3	Qwen2.5-VL-72B-InstructOVH AI Endpoints (GRA)	100.0	1
4	gpt-oss-120bOVH AI Endpoints (GRA)	100.0	1
5	Qwen3-Coder-30B-A3B-InstructOVH AI Endpoints (GRA)	100.0	1

🇩🇪

Deutsch

1 benchmark runs · German

#	Model	Score	Runs
1	Gemini 3.1 Flash Lite PreviewGoogle Gemini	100.0	1
2	Nano Banana ProGoogle Gemini	100.0	2
3	gpt-4-turboOpenAI	100.0	2
4	gpt-4.1-nanoOpenAI	100.0	2
5	Qwen2.5-VL-72B-InstructOVH AI Endpoints (GRA)	100.0	1

🇫🇷

Français

2 benchmark runs · French

#	Model	Score	Runs
1	Claude Opus 4.6Anthropic	100.0	2
2	Claude Opus 4Anthropic	100.0	2
3	Gemini Flash-Lite LatestGoogle Gemini	100.0	2
4	gpt-4o-mini-2024-07-18OpenAI	99.5	2
5	Claude Sonnet 4.5Anthropic	99.5	2

🇪🇸

Español

3 benchmark runs · Spanish

#	Model	Score	Runs
1	gpt-3.5-turboOpenAI	100.0	3
2	Claude Sonnet 4.5Anthropic	100.0	3
3	gpt-3.5-turbo-16kOpenAI	100.0	2
4	gpt-3.5-turbo-1106OpenAI	100.0	3
5	gpt-3.5-turbo-0125OpenAI	100.0	3

🇹🇷

Türkçe

1 benchmark runs · Turkish

#	Model	Score	Runs
1	gpt-4o-2024-08-06OpenAI	100.0	1
2	gpt-3.5-turbo-0125OpenAI	100.0	1
3	gpt-3.5-turbo-1106OpenAI	100.0	1
4	Gemini 3.1 Flash Lite PreviewGoogle Gemini	100.0	1
5	Gemini Robotics-ER 1.6 PreviewGoogle Gemini	100.0	1