marketing seo

Ce que 23 000 tests sur 220 modèles nous ont appris sur la frontière de l'IA

Choisir un modèle d'IA n'a jamais semblé aussi difficile. Le marché s'enrichit de nouvelles sorties plus vite que la plupart des équipes ne peuvent les évaluer, les prix varient de plusieurs ordres de grandeur, et les affirmations des éditeurs sur le « meilleur de sa catégorie » sont presque toujours sélectives. Nous avons donc cessé de lire les communiqués de presse et commencé à mesurer.

Sur six semaines — du 30 avril au 15 juin 2026 — Tokonomix a effectué 23 373 tests sur 203 modèles distincts issus de notre catalogue de 220 modèles suivis, dont 131 actifs au moment des mesures, couvrant sept fournisseurs : Anthropic, OpenAI, Google, OVH (hébergement en UE), OpenRouter, DeepSeek et Mistral. Chaque modèle a été noté de 0 à 100 sur six catégories de capacités : codage, raisonnement, exactitude factuelle, écriture créative, performance multilingue et santé. Aucun benchmark maison d'un éditeur, aucune invite de démonstration triée sur le volet — une mesure en conditions de production, continuellement mise à jour.

Voici ce que les données montrent réellement.

La frontière est compressée — bien plus que vous ne le pensez

Le constat le plus frappant est la faible distance qui sépare les leaders de la frontière. Les dix premiers modèles en score global (moyenne sur les six catégories) tiennent dans une plage qui couvre à peine un point :

| Model | Overall Score | |---|---| | gemini-3.1-flash-lite | 99.4 | | gemini-flash-lite-latest | 99.2 | | claude-opus-4-5 | 99.1 | | claude-opus-4-7 | 98.9 | | gpt-5-chat-latest | 98.8 | | claude-opus-4-8 | 98.7 | | claude-opus-4-6 | 98.6 | | gpt-4.1 | 98.0 | | gpt-4.1-mini | 98.0 | | gpt-4.1-nano | 98.0 |

Score global = la moyenne sur les six catégories, mesurée jusqu'au 15 juin 2026. Notre classement public se met à jour en continu au fil des nouveaux tests, les rangs en direct différeront donc légèrement de ce cliché — c'est précisément le point : la frontière évolue semaine après semaine.

L'écart entre la première et la dixième place est de 1,4 point sur une échelle de 100. Cette compression a une conséquence pratique : toute affirmation du type « le modèle X est 20 % plus intelligent que le modèle Y » que vous lisez dans le blog d'un éditeur mesure presque certainement quelque chose de précis et de restreint, pas une capacité globale. À la frontière, la capacité globale a convergé.

Cela ne signifie pas que tous les modèles sont équivalents — cela signifie que le score agrégé est le mauvais outil pour choisir entre eux. Il faut creuser davantage.

Le codage et le raisonnement arrivent à saturation

Lorsqu'on décompose les six catégories, deux d'entre elles — le codage et le raisonnement — montrent désormais des effets de plafond à la frontière. De nombreux modèles de pointe atteignent le plafond de 100 sur ces deux dimensions, ce qui signifie que ces catégories ne permettent plus de discriminer entre les meilleures options. Si vous choisissez un modèle uniquement pour le développement logiciel ou la résolution de problèmes logiques, vous choisissez parmi des modèles qui sont tous essentiellement au maximum de ce que nous pouvons mesurer actuellement.

Les catégories qui séparent encore les modèles à la frontière sont l'exactitude factuelle, la performance multilingue et la santé. Elles sont plus difficiles à saturer car elles exigent une couverture de connaissances étendue, une nuance culturelle et une précision de domaine, plutôt que le respect de règles que les tâches de codage et de raisonnement ont tendance à récompenser. Si votre cas d'usage relève de l'un de ces trois domaines, la décision de sélection devient beaucoup plus significative — et plus dépendante des données.

Coût : vous pouvez atteindre ~98 % de la frontière pour une bouchée de pain

Le chiffre qui nous a le plus surpris : le leader global est un modèle de niveau « flash-lite ».

gemini-3.1-flash-lite domine le classement avec un score global de 99,4 — devant les plus grands modèles phares de tous les fournisseurs. La capacité ne requiert plus le niveau le plus grand et le plus coûteux. Ce n'est pas un artefact de notre méthodologie de notation ; cela apparaît de manière cohérente sur les six semaines de mesure.

Plus largement, la frontière coût-efficacité ressemble à ceci :

gpt-4.1-nano : 10 centimes par million de tokens en entrée, 40 centimes par million de tokens en sortie — score global 98,0. C'est à deux points seulement du modèle le mieux classé, à un prix qu'aucun modèle phare ne peut égaler.
gpt-oss-120b (hébergé sur OVH en UE) : 8 centimes par million de tokens en entrée, 40 centimes par million de tokens en sortie — score global 97,5.
Mistral-Small-3.2-24B (OVH, UE) : 9 centimes par million de tokens en entrée, 28 centimes par million de tokens en sortie — score global 93,7.

La conséquence pratique : pour la majorité des charges de travail en production, vous pouvez atteindre environ 98 % de la qualité mesurée à la frontière pour une fraction du prix des modèles phares. Les 1 à 2 points restants sur le score agrégé peuvent avoir de l'importance pour des tâches spécifiques à forts enjeux, mais pour un usage généraliste, l'économie a basculé de façon spectaculaire en faveur du niveau efficace.

La vitesse est un axe à part entière

La latence ne suit pas la qualité. Cela semble évident, mais les données le rendent concret.

Les répondeurs les plus rapides (médiane) dans notre jeu de données sont des modèles dont vous n'avez peut-être pas entendu parler dans les conversations sur les modèles phares :

voxtral-small-24b : ~157 ms de temps de réponse médian (p50)
nemotron-super-49b : ~200 ms
hermes-3-llama-3.1-70b : ~227 ms
llama-4-scout : ~248 ms

À l'autre extrémité :

gemma-4-26b : ~22 950 ms de médiane
gemma-4-31b : ~21 940 ms
gpt-4-turbo : ~10 550 ms

Les modèles les plus lents dans nos mesures sont plus de 140 fois plus lents que les plus rapides, à la médiane. Pour une application face à l'utilisateur où le temps de réponse est un signal de qualité produit, cette différence distingue un outil que les gens s'empressent d'utiliser de celui qu'ils abandonnent.

La conséquence pour la sélection : score de qualité et latence sont des variables indépendantes. Certains modèles très bien notés sont lents. Certains modèles rapides obtiennent de bons scores de qualité. Vous devez évaluer les deux axes simultanément pour votre cas d'usage — un pipeline de résumé en arrière-plan n'a pas les mêmes exigences qu'un assistant de codage en temps réel.

Souveraineté sans sacrifice : les modèles hébergés en UE atteignent désormais la quasi-frontière

Pour les équipes opérant sous le RGPD ou d'autres exigences de résidence des données, l'hébergement en UE a historiquement signifié accepter une remise de qualité significative. Ce n'est plus le cas.

Parmi les modèles hébergés sur l'infrastructure OVH en France, les suivants obtiennent un score global supérieur à 90 :

gpt-oss-120b : 97,5
Qwen2.5-VL-72B : 94,3
Mistral-Small-3.2-24B : 93,7
Meta-Llama-3.3-70B : 92,7
Llama-3.1-8B : 91,2

Un score de 97,5 pour un modèle avec résidence des données en UE, à 8 centimes par million de tokens en entrée, change le calcul de conformité pour de nombreuses organisations. Il y a six mois, cette combinaison n'existait pas à ce niveau de qualité. Maintenant, oui.

Alors, quel modèle devriez-vous utiliser ?

La réponse honnête est que « le meilleur modèle » est la mauvaise question.

Les données montrent une frontière où les dix premiers modèles sont séparés par 1,4 point et où un modèle flash-lite domine le classement global. Dans cet environnement, optimiser pour le score agrégé le plus élevé vous amènera à payer pour des différences que vous ne pouvez pas mesurer en production. La bonne question est : le meilleur modèle pour cette tâche, à ce coût, avec ce budget de latence, sous ces contraintes de résidence des données.

Ce recadrage change la façon dont vous évaluez :

Traitement de texte à volume élevé où le coût domine : gpt-4.1-nano ou gpt-oss-120b vous offrent une qualité proche de la frontière dans la plage de 8 à 10 centimes par million de tokens en entrée.
Fonctionnalités en temps réel face à l'utilisateur où la latence domine : les modèles sous 250 ms sont le point de départ ; filtrez ensuite par qualité sur la catégorie de tâche spécifique.
Charges de travail factuelles, multilingues ou de santé où les différences de qualité restent significatives : c'est exactement là où les scores par catégorie côte à côte importent le plus, car les scores de codage et de raisonnement ne discriminent plus à la frontière.
Résidence des données en UE requise : le niveau hébergé sur OVH offre désormais des scores globaux supérieurs à 90 avec pleine résidence des données — intégrez-le dès le départ plutôt que de traiter la souveraineté comme un repli.

Le fil conducteur est qu'aucune de ces décisions ne peut être prise à partir d'un seul classement agrégé ou de la page de benchmark d'un éditeur. Elles exigent de mesurer votre tâche par rapport aux modèles que vous envisagez réellement, avec vos invites, à votre échelle d'utilisation.

Si vous souhaitez tester cela vous-même, vous pouvez exécuter la même évaluation par consensus multi-modèles sur vos propres invites à /live-test/consensus. Elle soumet votre requête à plusieurs modèles simultanément et met en évidence les accords, les désaccords et les performances par catégorie — vous permettant de voir où les modèles convergent et où ils divergent sur exactement le type de question que vous cherchez à résoudre.

La frontière est plus encombrée, plus abordable et plus distribuée géographiquement qu'elle ne l'était il y a un an. Les équipes qui s'y retrouveront le mieux seront celles qui mesurent plutôt qu'elles ne supposent.