marketing seo

Was uns 23.000 Benchmark-Läufe über 220 Modelle über die KI-Frontier gelehrt haben

Die Auswahl eines KI-Modells war noch nie so schwierig. Der Markt bringt neue Releases schneller heraus, als die meisten Teams sie evaluieren können. Die Preise variieren um Größenordnungen, und „beste Klasse"-Behauptungen von Anbietern sind fast immer selektiv ausgewählt. Also haben wir aufgehört, Pressemitteilungen zu lesen, und angefangen zu messen.

Über sechs Wochen — vom 30. April bis zum 15. Juni 2026 — führte Tokonomix 23.373 Benchmark-Läufe über 203 verschiedene Modelle durch, entnommen aus unserem Katalog mit 220 erfassten Modellen, von denen 131 zum Zeitpunkt der Messung aktiv waren. Sieben Anbieter waren vertreten: Anthropic, OpenAI, Google, OVH (EU-gehostet), OpenRouter, DeepSeek und Mistral. Jedes Modell wurde auf einer Skala von 0 bis 100 in sechs Fähigkeitskategorien bewertet: Coding, Reasoning, Faktentreue, kreatives Schreiben, mehrsprachige Leistung und Healthcare. Kein herstellereigener Benchmark, keine kuratierten Demo-Prompts — produktionsreife, kontinuierlich aktualisierte Messung.

Das zeigen die Daten tatsächlich.

Die Spitze ist komprimiert — mehr als Sie denken

Der auffälligste Befund: Wie wenig die Frontier-Spitzenreiter voneinander trennt. Die zehn Modelle mit dem höchsten Gesamtscore (Mittelwert über die sechs Kategorien) liegen in einem Band, das kaum einen Punkt umfasst:

| Model | Overall Score | |---|---| | gemini-3.1-flash-lite | 99.4 | | gemini-flash-lite-latest | 99.2 | | claude-opus-4-5 | 99.1 | | claude-opus-4-7 | 98.9 | | gpt-5-chat-latest | 98.8 | | claude-opus-4-8 | 98.7 | | claude-opus-4-6 | 98.6 | | gpt-4.1 | 98.0 | | gpt-4.1-mini | 98.0 | | gpt-4.1-nano | 98.0 |

Overall = Mittelwert über die sechs Kategorien, gemessen bis zum 15. Juni 2026. Unser öffentliches Leaderboard wird kontinuierlich aktualisiert, sobald neue Läufe eintreffen — die Live-Rankings weichen daher leicht von diesem Snapshot ab. Das ist der Punkt: Die Frontier bewegt sich Woche für Woche.

Der Abstand vom ersten zum zehnten Platz beträgt 1,4 Punkte auf einer 100-Punkte-Skala. Diese Komprimierung hat eine praktische Konsequenz: Jede Behauptung à la „Modell X ist 20 % intelligenter als Modell Y" aus einem Anbieterblog misst mit hoher Wahrscheinlichkeit etwas Enges und Spezifisches, keine aggregierte Fähigkeit. An der Frontier hat die aggregierte Leistungsfähigkeit konvergiert.

Das bedeutet nicht, dass alle Modelle gleich sind — es bedeutet, dass der aggregierte Score das falsche Instrument ist, um zwischen ihnen zu wählen. Man muss tiefer gehen.

Coding und Reasoning sättigen sich

Schlüsselt man die sechs Kategorien auf, zeigen zwei davon — Coding und Reasoning — an der Frontier bereits Deckeneffekte. Viele Top-Modelle erreichen bei beiden Dimensionen die Maximalgrenze von 100, was bedeutet, dass diese Kategorien die besten Optionen nicht mehr voneinander unterscheiden. Wer ein Modell ausschließlich für Softwareentwicklung oder logisches Problemlösen sucht, wählt zwischen Modellen, die auf den aktuell messbaren Dimensionen alle im Wesentlichen ausgereizt sind.

Die Kategorien, die Modelle an der Frontier noch trennen, sind Faktentreue, mehrsprachige Leistung und Healthcare. Diese sind schwerer zu sättigen, da sie breite Wissensabdeckung, kulturelle Nuancen und Domänenpräzision erfordern — statt des regelbasierten Denkens, das Coding- und Reasoning-Aufgaben typischerweise belohnen. Wer in einem dieser drei Bereiche tätig ist, trifft eine deutlich bedeutungsvollere — und datenabhängigere — Entscheidung.

Kosten: Rund 98 % der Frontier sind für wenige Cent zu haben

Die einzelne Zahl, die uns am meisten überraschte: Der Gesamtsieger ist ein „Flash-Lite"-Modell.

gemini-3.1-flash-lite führt die Rangliste mit 99,4 Punkten an — vor den größten Flaggschiff-Modellen aller Anbieter. Leistungsfähigkeit erfordert keine teure Tier mehr. Das ist kein Zufall unserer Bewertungsmethodik; es zeigt sich konsistent über die sechs Wochen der Messung.

Insgesamt sieht das kosteneffiziente Frontier-Bild so aus:

gpt-4.1-nano: 10 Cent pro Million Input-Token, 40 Cent pro Million Output-Token — Gesamtscore 98,0. Das liegt innerhalb von zwei Punkten des führenden Modells, zu einem Preis, den die meisten Flaggschiffe nicht unterbieten können.
gpt-oss-120b (gehostet auf OVH in der EU): 8 Cent pro Million Input-Token, 40 Cent pro Million Output-Token — Gesamtscore 97,5.
Mistral-Small-3.2-24B (OVH, EU): 9 Cent pro Million Input-Token, 28 Cent pro Million Output-Token — Gesamtscore 93,7.

Die praktische Schlussfolgerung: Für die Mehrzahl produktiver Workloads lässt sich rund 98 % der gemessenen Frontier-Qualität zu einem Bruchteil der Flaggschiff-Preise erreichen. Die verbleibenden 1–2 Punkte im aggregierten Score können für spezifische, hochkritische Aufgaben relevant sein — für den Allgemeinfall haben sich die wirtschaftlichen Bedingungen jedoch deutlich zugunsten der effizienten Tier verschoben.

Geschwindigkeit ist eine eigene Achse

Latenz korreliert nicht mit Qualität. Das klingt selbstverständlich, aber die Daten machen es konkret.

Die schnellsten Modelle nach medianem Antwortverhalten in unserem Datensatz sind Namen, die in Flaggschiff-Diskussionen vielleicht weniger präsent sind:

voxtral-small-24b: ~157 ms medianer (p50) Response-Time
nemotron-super-49b: ~200 ms
hermes-3-llama-3.1-70b: ~227 ms
llama-4-scout: ~248 ms

Am anderen Ende der Skala:

gemma-4-26b: ~22.950 ms Median
gemma-4-31b: ~21.940 ms
gpt-4-turbo: ~10.550 ms

Die langsamsten Modelle in unserer Messung sind im Median mehr als 140 Mal langsamer als die schnellsten. Für eine nutzerseitige Anwendung, bei der Antwortzeit ein Qualitätssignal ist, ist dieser Unterschied der Unterschied zwischen einem Werkzeug, das man gerne nutzt, und einem, das man aufgibt.

Die Konsequenz für die Modellauswahl: Qualitätsscore und Latenz sind unabhängige Variablen. Manche Top-Modelle sind langsam. Manche schnelle Modelle erzielen gute Qualitätswerte. Für den eigenen Anwendungsfall müssen beide Achsen gleichzeitig bewertet werden — eine Hintergrundpipeline zur Zusammenfassung hat andere Anforderungen als ein Echtzeit-Coding-Assistent.

Datensouveränität ohne Abstriche: EU-gehostete Modelle sind jetzt nahe an der Frontier

Für Teams, die unter DSGVO oder anderen Datenschutzanforderungen arbeiten, bedeutete EU-Hosting bislang einen erheblichen Qualitätsverzicht. Das gilt nicht mehr.

Unter den Modellen, die auf OVH-Infrastruktur in Frankreich gehostet werden, erzielen folgende einen Gesamtscore über 90:

gpt-oss-120b: 97,5
Qwen2.5-VL-72B: 94,3
Mistral-Small-3.2-24B: 93,7
Meta-Llama-3.3-70B: 92,7
Llama-3.1-8B: 91,2

Ein Score von 97,5 bei einem Modell mit EU-Datenhaltung zu 8 Cent pro Million Input-Token verändert die Compliance-Kalkulation für viele Organisationen grundlegend. Vor sechs Monaten existierte diese Kombination auf diesem Qualitätsniveau noch nicht. Jetzt schon.

Welches Modell sollte man also verwenden?

Die ehrliche Antwort: „Das beste Modell" ist die falsche Frage.

Die Daten zeigen eine Frontier, an der die zehn führenden Modelle 1,4 Punkte voneinander trennen und ein Flash-Lite-Modell die Gesamtrangliste anführt. In diesem Umfeld führt die Optimierung auf den höchsten aggregierten Score dazu, für Unterschiede zu bezahlen, die sich in der Produktion nicht messen lassen. Die richtige Frage lautet: Bestes Modell für diese Aufgabe, zu diesen Kosten, mit diesem Latenzbudget, unter diesen Datenschutz-Anforderungen.

Diese Neubewertung verändert die Evaluation:

Textverarbeitung in hohem Volumen, wo Kosten dominieren: gpt-4.1-nano oder gpt-oss-120b liefern nahezu Frontier-Qualität im Bereich von 8–10 Cent pro Million Input-Token.
Echtzeit-nutzerseitige Features, wo Latenz dominiert: Die Modelle unter 250 ms sind der Ausgangspunkt; von dort wird nach Qualität auf der eigenen Aufgabenkategorie gefiltert.
Faktuelle, mehrsprachige oder Healthcare-Workloads, wo Qualitätsunterschiede noch bedeutsam sind: Genau hier ist das kategoriegenaue Scoring im direkten Vergleich am wichtigsten, da Coding- und Reasoning-Scores an der Frontier nicht mehr differenzieren.
EU-Datenhaltung erforderlich: Die OVH-gehostete Tier bietet jetzt Gesamtscores über 90 bei voller Datenresidenz — sie sollte von Anfang an einkalkuliert werden, nicht als Rückfalloption.

Der gemeinsame Nenner: Keine dieser Entscheidungen lässt sich auf Basis einer einzelnen aggregierten Rangliste oder der Benchmark-Seite eines Anbieters treffen. Sie erfordern, die eigene Aufgabe gegen die tatsächlich in Betracht gezogenen Modelle zu messen — mit den eigenen Prompts, bei der eigenen Nutzungsskala.

Wer das selbst testen möchte, kann dieselbe Multi-Modell-Konsensevaluation mit eigenen Prompts unter /live-test/consensus ausführen. Die Abfrage wird dabei gleichzeitig über mehrere Modelle gesendet und zeigt Übereinstimmungen, Abweichungen und kategoriegenaue Leistung — sodass sichtbar wird, wo Modelle konvergieren und wo sie bei genau der Art von Frage divergieren, die man beantworten möchte.

Die Frontier ist voller, erschwinglicher und geografisch verteilter als noch vor einem Jahr. Teams, die sie erfolgreich navigieren, werden diejenigen sein, die messen statt annehmen.