marketing seo

Wat 23.000 Benchmark-runs Over 220 Modellen Ons Leerden Over de AI-Frontier

Een AI-model kiezen voelt moeilijker dan ooit. De markt brengt nieuwe releases sneller uit dan de meeste teams ze kunnen evalueren, prijsverschillen lopen op tot meerdere ordes van grootte, en "best in class"-claims van aanbieders zijn bijna altijd gebaseerd op zorgvuldig geselecteerde deelmetingen. Daarom zijn we gestopt met persbericht lezen en begonnen met meten.

Over zes weken — van 30 april tot 15 juni 2026 — voerde Tokonomix 23.373 benchmark-runs uit over 203 afzonderlijke modellen uit onze catalogus van 220 bijgehouden modellen, waarvan 131 actief ten tijde van de meting, verspreid over zeven aanbieders: Anthropic, OpenAI, Google, OVH (EU-hosting), OpenRouter, DeepSeek en Mistral. Elk model werd gescoord van 0 tot 100 in zes capability-categorieën: coderen, redeneren, feitelijke nauwkeurigheid, creatief schrijven, meertalige prestaties en gezondheidszorg. Geen benchmark van één aanbieder, geen zorgvuldig geselecteerde demoprompts — productiewaardige, continu bijgewerkte metingen.

Dit is wat de data werkelijk laat zien.

De Top Is Gecomprimeerd — Meer Dan Je Denkt

De opvallendste bevinding is hoe weinig de frontrunners van elkaar scheiden. De tien hoogst scorende modellen op de totaalscore (een gemiddelde over de zes categorieën) zitten binnen een marge van amper één punt:

| Model | Totaalscore | |---|---| | gemini-3.1-flash-lite | 99.4 | | gemini-flash-lite-latest | 99.2 | | claude-opus-4-5 | 99.1 | | claude-opus-4-7 | 98.9 | | gpt-5-chat-latest | 98.8 | | claude-opus-4-8 | 98.7 | | claude-opus-4-6 | 98.6 | | gpt-4.1 | 98.0 | | gpt-4.1-mini | 98.0 | | gpt-4.1-nano | 98.0 |

Totaalscore = het gemiddelde over de zes categorieën, gemeten tot en met 15 juni 2026. Ons publieke leaderboard wordt continu bijgewerkt naarmate nieuwe runs binnenkomen, waardoor de live-rangschikking licht zal afwijken van deze momentopname — dat is nu juist het punt: de frontier beweegt week na week.

Het verschil van positie één naar positie tien is 1,4 punt op een schaal van 100. Die compressie heeft een praktische consequentie: elke claim van de vorm "Model X is 20% slimmer dan Model Y" in een blogpost van een aanbieder meet vrijwel zeker iets specifieks en narrowgedefinieerd, niet de totale capability. Aan de frontier is de totale capability samengeknepen.

Dit betekent niet dat alle modellen gelijkwaardig zijn — het betekent dat de totaalscore het verkeerde instrument is om tussen modellen te kiezen. Je moet dieper gaan.

Coderen en Redeneren Raken Verzadigd

Als je de zes categorieën apart bekijkt, vertonen twee ervan — coderen en redeneren — nu plafondeffecten aan de frontier. Veel topmodellen bereiken het plafond van 100 op beide dimensies, wat betekent dat deze categorieën niet langer onderscheid maken tussen de beste opties. Als je een model puur voor softwareontwikkeling of logisch probleemoplossen kiest, kies je tussen modellen die op de dimensies die we momenteel kunnen meten allemaal vrijwel maximaal scoren.

De categorieën die modellen aan de frontier wél van elkaar onderscheiden, zijn feitelijke nauwkeurigheid, meertalige prestaties en gezondheidszorg. Die zijn moeilijker te verzadigen omdat ze brede kennisdekking, culturele nuance en domeinprecisie vereisen in plaats van de regelopvolging die codeer- en redeneerstandpunten doorgaans belonen. Als jouw gebruikssituatie in een van deze drie gebieden valt, wordt de selectiebeslissing veel wezenlijker — en meer data-afhankelijk.

Kosten: ~98% van de Frontier is Bereikbaar voor een Prikkie

Het getal dat ons het meest verraste: de algehele leider is een "flash-lite"-tiermodel.

gemini-3.1-flash-lite staat bovenaan met een totaalscore van 99,4 — vóór de grootste vlaggenschipmodellen van welke aanbieder dan ook. Capability vereist niet langer de grootste, duurste tier. Dat is geen toevalstreffer van onze scoremethode; het komt consistent naar voren over de zes weken van meting.

Breder gezien ziet de kostenefficiënte frontier er als volgt uit:

gpt-4.1-nano: 10 cent per miljoen invoertokens, 40 cent per miljoen uitvoertokens — totaalscore 98,0. Dat is binnen twee punten van het hoogst gerangschikte model, tegen een prijs die de meeste vlaggenschipmodellen niet kunnen evenaren.
gpt-oss-120b (gehost op OVH in de EU): 8 cent per miljoen invoertokens, 40 cent per miljoen uitvoertokens — totaalscore 97,5.
Mistral-Small-3.2-24B (OVH, EU): 9 cent per miljoen invoertokens, 28 cent per miljoen uitvoertokens — totaalscore 93,7.

De praktische implicatie: voor de meerderheid van productieworkloads kun je met een fractie van de vlaggenschipprijs ongeveer 98% van de gemeten kwaliteit aan de frontier bereiken. De resterende 1–2 punten op de totaalscore kunnen relevant zijn voor specifieke hoog-risicovolle taken, maar voor algemeen gebruik zijn de economische verhoudingen ingrijpend verschoven naar de efficiënte tier.

Snelheid is een Eigen As

Latentie volgt kwaliteit niet. Dat klinkt vanzelfsprekend, maar de data maakt het concreet.

De snelste modellen in onze dataset op mediaanresponstijd zijn modellen die je misschien niet kent uit discussies over vlaggenschipmodellen:

voxtral-small-24b: ~157 ms mediaanresponstijd (p50)
nemotron-super-49b: ~200 ms
hermes-3-llama-3.1-70b: ~227 ms
llama-4-scout: ~248 ms

Aan het andere uiteinde:

gemma-4-26b: ~22.950 ms mediaan
gemma-4-31b: ~21.940 ms
gpt-4-turbo: ~10.550 ms

De langzaamste modellen in onze meting zijn meer dan 140 keer trager dan de snelste, op de mediaan. Voor een gebruikersgericht product waarbij responstijd een kwaliteitssignaal is, is dat het verschil tussen een tool die mensen graag gebruiken en een die ze terzijde leggen.

De implicatie voor selectie: kwaliteitsscore en latentie zijn onafhankelijke variabelen. Sommige hoogscorende modellen zijn traag. Sommige snelle modellen scoren goed op kwaliteit. Je moet beide assen tegelijk evalueren voor jouw gebruikssituatie — een achtergrond-samenvattingspipeline heeft andere eisen dan een realtime codeerassistent.

Soevereiniteit Zonder Concessies: EU-gehoste Modellen Zitten nu Nabij de Frontier

Voor teams die onder de AVG of andere dataresidenievereisten opereren, betekende EU-hosting historisch gezien een aanzienlijke kwaliteitskorting. Dat is niet langer zo.

Onder modellen die op OVH-infrastructuur in Frankrijk worden gehost, scoren de volgende boven de 90 overall:

gpt-oss-120b: 97,5
Qwen2.5-VL-72B: 94,3
Mistral-Small-3.2-24B: 93,7
Meta-Llama-3.3-70B: 92,7
Llama-3.1-8B: 91,2

Een score van 97,5 van een model met EU-dataresidenantie, voor 8 cent per miljoen invoertokens, verandert de complianceafweging voor veel organisaties fundamenteel. Zes maanden geleden bestond die combinatie op dit kwaliteitsniveau niet. Nu wel.

Welk Model Moet Je dan Gebruiken?

Het eerlijke antwoord is dat "beste model" de verkeerde vraag is.

De data toont een frontier waarop de tien beste modellen 1,4 punt van elkaar verwijderd zijn en waarbij een flash-lite-model de totaalrangschikking aanvoert. In die omgeving leidt optimaliseren voor de hoogste totaalscore ertoe dat je betaalt voor verschillen die je in productie niet kunt meten. De juiste vraag is: het beste model voor deze taak, tegen deze kosten, binnen dit latentiebudget, onder deze dataresidenievereisten.

Die herformulering verandert hoe je evalueert:

Hoogvolume-tekstverwerking waarbij kosten domineren: gpt-4.1-nano of gpt-oss-120b geven je near-frontier kwaliteit in het bereik van 8–10 cent per miljoen invoertokens.
Realtime gebruikersgerichte functies waarbij latentie domineert: de modellen onder de 250 ms zijn het startpunt; filter daarvandaan op kwaliteit voor jouw specifieke taakcategorie.
Feitelijke, meertalige of gezondheidszorgworkloads waarbij kwaliteitsverschillen nog betekenisvol zijn: dit is precies waar scoring op categorieniveau naast elkaar het meest waardevol is, omdat codeer- en redeneerscores aan de frontier niet langer onderscheiden.
EU-dataresidentie vereist: de OVH-gehoste tier biedt nu totaalscores boven de 90 met volledige dataresidentie — reken het van het begin mee in plaats van soevereiniteit als terugvaloptie te behandelen.

De rode draad is dat geen van deze beslissingen kan worden genomen op basis van een enkele totaalrangschikking of de benchmarkpagina van een aanbieder. Ze vereisen dat je jouw taak meet tegenover de modellen die je werkelijk overweegt, met jouw prompts, op jouw gebruiksschaal.

Als je dit zelf wilt testen, kun je dezelfde multi-model consensusevaluatie uitvoeren op je eigen prompts via /live-test/consensus. Het draait jouw query gelijktijdig over meerdere modellen en brengt overeenkomst, verschil en prestaties per categorie in beeld — zodat je precies kunt zien waar modellen convergeren en divergeren op het soort vraag dat jij probeert te beantwoorden.

De frontier is drukker, betaalbaarder en geografisch meer gespreid dan een jaar geleden. De teams die er goed mee omgaan, zijn degenen die meten in plaats van aannemen.