Benchmarks
Méthodologie
Comment Tokonomix mesure les performances des modèles d'IA. Aucune influence des fournisseurs. Aucun résultat sponsorisé. Méthodologie transparente, données ouvertes.
Vitesse
À quelle vitesse le modèle répond-il ? Nous mesurons le temps jusqu'au dernier token pour une invite de longueur fixe.
Intelligence
Quelle est la précision et la capacité du modèle ? Un LLM juge évalue les réponses sur 6 catégories avec un score de 0 à 100.
Santé
L'API est-elle disponible ? Nous vérifions toutes les 6 heures et suivons les taux d'erreur et les fenêtres de disponibilité.
Benchmark de vitesse
Invite : Une instruction fixe ciblant environ 500 tokens en sortie. La même invite est utilisée pour chaque modèle à chaque cycle d'exécution.
Exécutions : 3 appels séquentiels par cycle de test. Nous mesurons la latence de bout en bout (premier octet au dernier octet), non pas le TTFT.
Métriques : P50 (médiane) et P95 (queue) sur les 3 exécutions. Le P50 est le chiffre principal ; le P95 révèle la régularité.
Lieu de mesure : UE — Amsterdam (AMS). Tous les résultats correspondent à la latence UE. Les résultats depuis les États-Unis ou l'Asie seraient différents.
Niveaux de vitesse :
Benchmark d'intelligence
Statut : En production depuis mai 2026. 13,593 exécutions scorées sur 6 catégories et 4 fournisseurs. Nouvelles exécutions toutes les 6 heures en parallèle des vérifications de vitesse et de santé.
Modèle juge : Claude Sonnet 4.5 joue le rôle de juge impartial. Le nom du modèle évalué n'est jamais inclus dans l'invite du juge — seul le texte brut de la réponse est noté (évaluation en aveugle).
Notation : Chaque invite reçoit un score de qualité unique de 0 à 100 attribué par le juge, ainsi qu'une classification (correct / partiel / incorrect). Le juge évalue la précision factuelle, l'exhaustivité, la qualité du raisonnement et le respect du format selon un barème combiné. Les moyennes par catégorie sont affichées sur les pages de modèles.
Six catégories d'invites :
Score de qualité global : Moyenne non pondérée de toutes les exécutions scorées pour un modèle, toutes catégories confondues.
Ce qui compte vs. ce que vous observez
L'arène affiche une course en direct avec des barres de vie et des strikes — mais l'écran et le classement sont deux couches distinctes. Le visuel est là pour suivre le match ; le classement est établi par un panel de juges indépendant. Ce tableau rend la distinction explicite, afin que rien à l'écran ne soit confondu avec un résultat.
| À l'écran | Source | Compte dans le classement ? |
|---|---|---|
| Barres de vie / avance / dégâts / strikes | Dérivation visuelle déterministe (v8.1-tokonomix) | Non — cosmétique |
| Leader de la course en direct pendant une manche | Juge unique rapide par tour (gpt-4o-mini, 0–10) | Non — indicatif |
| Vainqueur de la manche | Vote majoritaire du panel cross-family (0–100) | Oui |
| Position au leaderboard | Estimation de compétence TrueSkill (μ) | Oui |
| Votes du jury (▲) | Vote du panel quand un juge note un modèle ≥60 | Affiché, non classant |
| Accord du juge % | Fréquence à laquelle le choix d'un juge a correspondu au vainqueur du panel | Accord du panel — pas une mesure de justesse |
| Économies (€) | Manches où un council moins cher a battu un modèle plus coûteux | Au mieux — victoires uniquement |
| Blind spots détectés | Omissions confirmées par ≥2 juges du panel | Confirmés uniquement — déploiement en cours |
Une quatrième méthode : l'arène
Les benchmarks statiques mesurent un modèle par rapport à une barre fixe. L'arène mesure les modèles les uns contre les autres, sur des scénarios réalistes de service client, jugés par un panel de modèles rivaux. Elle produit quelque chose qu'un score unique ne peut pas donner : un classement relatif assorti d'une marge d'incertitude.
Pourquoi ceci complète les benchmarks statiques (sans les remplacer) :
- Les tests statiques donnent une qualité absolue par catégorie ; l'arène donne la force en face-à-face et un arbitrage coût-qualité sur des tâches réalistes.
- L'arène capte ce qu'un score 0–100 ne saisit pas : la régularité sur plusieurs tours, la façon dont un modèle gère les relances, et — avec les councils — si la collaboration est réellement payante.
- La course à l'écran est un moyen de suivre le déroulement du match. Le résultat est toujours déterminé par le panel, jamais par les barres de vie.
Comment une manche est notée : du tour par tour au panel
La notation se fait en deux étapes. Pendant le match, un arbitre rapide unique tient un décompte en temps réel ; à la fin, un panel indépendant de juges vote pour le vainqueur.
Étape 1 — en direct, par tour : Un juge unique rapide et délibérément peu coûteux (gpt-4o-mini) note chaque réponse sur une échelle de 0–10 en un seul appel. Cela alimente uniquement les couloirs de la course en direct — c'est indicatif, non décisif.
Étape 2 — fin de manche, le panel : Un panel de 3 à 5 juges issus de familles de modèles différentes vote indépendamment sur le vainqueur sur une échelle de 0–100. La majorité l'emporte ; en cas d'égalité, le score moyen le plus élevé du panel départage, puis de façon déterministe par l'identifiant de modèle le plus bas.
Aveugle par index : Les noms des modèles sont supprimés de l'invite du panel — les concurrents sont désignés par numéro/index uniquement, afin que le panel ne puisse pas favoriser une marque familière.
Seuils fixes : Un modèle obtient un vote (▲) quand un juge lui attribue ≥60. Un tour est marqué «décisif» quand la marge du vainqueur atteint ≥30% de l'échelle de score. Ces valeurs fixes définissent les totaux que vous voyez.
TrueSkill : ce que signifient μ et σ
Chaque modèle possède un niveau de compétence estimé μ (mu) et une incertitude σ (sigma). Un nouveau modèle commence à μ=25, σ=8.333 — forte incertitude. Chaque match rapproche μ de la vraie force du modèle et réduit σ. Deux modèles avec le même μ mais des σ différents ne sont pas égaux : celui avec un σ faible est éprouvé, l'autre n'est encore qu'une estimation.
Les constantes que nous utilisons réellement : Note initiale μ=25, σ=8.333 ; variance de compétence BETA=4.167 ; dérive par match TAU=0.0833. Ces valeurs sont figées dans le code et identiques pour chaque modèle.
Notre méthode de tri actuelle — divulguée honnêtement : Le leaderboard trie sur le μ brut (force estimée). Un classement «éprouvé» plus strict trierait sur le μ−3σ conservateur. Comme les données sont récentes — la plupart des modèles n'ont que quelques parties — σ est encore élevé, donc le haut du classement peut encore bouger. Nous affichons l'estimation et précisons qu'il s'agit d'une estimation plutôt que de nous abriter derrière un chiffre unique.
Council vs. frontier : la collaboration est-elle rentable ?
Une manche peut opposer un council économique de petits modèles à un unique modèle frontier coûteux. Dans un council, la réponse de chaque tour est la synthèse consensus de ses membres. Cela permet à l'arène de répondre à une question qu'un score unique ne peut pas trancher : un council bon marché peut-il battre un modèle frontier coûteux — et si oui, dans quelle mesure ?
Comment les économies sont calculées : Quand un council remporte une manche et coûte moins que le modèle frontier qu'il a battu, nous affichons la différence comme économie. Une victoire de council est associée au groupe, jamais au tableau d'un membre individuel, de sorte qu'un résultat de groupe n'augmente jamais le classement d'un seul modèle.
Mise en garde sur le meilleur cas : Les économies ne s'accumulent que sur les manches remportées par le council. Les councils qui ont perdu (et donc dépensé de l'argent pour rien) ne sont pas déduits. Le chiffre représente donc une économie au mieux dans les manches gagnées — non un résultat net.
Deux réputations indépendantes
Un modèle est mesuré de deux manières distinctes, et les deux peuvent être en désaccord sans qu'aucune ne soit fausse — elles mesurent des choses différentes.
Réputation de l'arène (relative) : TrueSkill issu des victoires en face-à-face. Il classe un modèle face à ses rivaux sur des scénarios réalistes.
Réputation du juge neutre (absolue) : La fréquence à laquelle un modèle est évalué correct / partiel / incorrect dans le test d'intelligence récurrent, par rapport à un barème fixe plutôt qu'à un adversaire.
Un modèle peut perdre des parties tout en conservant une haute réputation de justesse, ou remporter des parties tout en ne scorant que «partiel» en précision absolue. Nous les maintenons séparés intentionnellement.
Blind spots
Un blind spot est un point important qu'un concurrent manque tandis que ≥2 autres le couvrent — il est donc manifestement important, pas un détail marginal.
Confirmé par le panel : Un blind spot n'est comptabilisé que lorsque ≥2 juges du panel s'accordent indépendamment sur la même omission. Un juge propose la liste des aspects et une matrice des manques ; les autres juges remplissent les mêmes aspects épinglés, et un manque n'est confirmé que lorsqu'au moins deux matrices concordent sur cette cellule.
Statut : Cette détection est active et se déploie progressivement sur les manches. Nous ne publions pas encore de décompte — nous préférons n'afficher aucun chiffre plutôt qu'un chiffre insuffisamment étayé par les données.
Constantes & seuils
Chaque total affiché sur les pages de l'arène découle d'un petit ensemble de choix fixes. Nous les listons ici afin que les chiffres soient auditables.
Divulgations honnêtes
Ce qu'un lecteur attentif voudrait voir explicité — limites, biais connus et choix qui influencent les chiffres.
Données préliminaires, classements volatils : L'arène est jeune. La plupart des modèles n'ont que quelques parties, donc une seule victoire ou défaite peut beaucoup faire bouger μ et les classements sont encore volatils. Nous affichons le nombre de parties et l'incertitude plutôt que de laisser entendre que l'ordre est établi.
Tri sur μ brut : Le classement trie sur le μ brut, non sur le μ−3σ conservateur. Avec une forte incertitude, cela signifie qu'un modèle avec une seule victoire chanceuse peut se trouver au-dessus d'un modèle plus éprouvé. Nous traitons l'ordre actuel comme «estimé, pas encore éprouvé».
L'accord du juge n'est pas la justesse : Le taux d'accord du juge mesure la fréquence à laquelle le choix d'un juge a correspondu au vainqueur du panel — mais le vainqueur est la majorité de ces mêmes juges. Cela mesure la conformité au panel, non si le panel avait raison. Un juge correct mais dissident obtient un score faible ici.
Les économies sont au mieux : Les économies ne comptent que les manches remportées par le council quand il était moins cher ; les councils perdants ne sont pas déduits. Lisez-le comme un chiffre au mieux dans les manches gagnantes, non comme une économie nette.
Auto-préférence du juge unique dans le test d'intelligence : Le test d'intelligence récurrent fonctionne sur un juge principal unique (Claude Sonnet 4.5), qui peut aussi juger des modèles de la famille Claude — l'auto-préférence est un biais connu des LLM. Un juge de vérification croisée secondaire existe pour calibrer cela, et l'arène l'atténue davantage avec un panel cross-family ; le test d'intelligence à juge unique ne dispose pas de ce panel.
Chevauchement concurrent ↔ famille de juges : Une famille de modèles peut apparaître à la fois comme concurrent et dans le panel de jugement de la même manche. L'évaluation en aveugle par index et le panel cross-family réduisent l'effet, mais le chevauchement peut survenir et nous le divulguons plutôt que de prétendre à une exclusion stricte par famille.
Deux échelles, un seul classement : Le juge en direct par tour utilise 0–10 et le panel de fin de manche utilise 0–100. Nous normalisons tout sur la même échelle avant qu'elle n'atteigne le classement, afin que les deux chiffres visibles pendant une manche ne soient pas mélangés dans le classement.
Comment les égalités sont gérées : Une manche sans vainqueur clair compte comme un match nul — non comme une défaite pour tous, ce qui fausserait les taux de victoire — et ne génère aucune économie.
Dérivation versionnée et déterministe : La dérivation visuelle à l'écran est pure, déterministe, et porte un tag de version (v8.1-tokonomix) précisément pour qu'un changement de logique ultérieur ne réécrive jamais silencieusement les manches passées. Les changements de méthodologie significatifs sont consignés dans le journal des modifications ci-dessous.
Contrôle qualité image : pilote vision-QC
En juin 2026, nous avons réalisé la première mesure de référence du contrôle qualité image IA. Six modèles individuels et deux configurations conseil ont été testés sur 300 images. Le conseil a atteint 87,5% de rappel contre 66,9% pour le meilleur modèle individuel. Résultats complets sur /benchmarks/vision-qc.
Vérification de la santé
Fréquence : Toutes les 6 heures (06:00, 12:00, 18:00, 00:00 UTC).
Méthode : Une invite minimale de type echo est envoyée. Nous enregistrons le statut HTTP, le message d'erreur (le cas échéant) et le temps de réponse.
Suivi des erreurs : Le error_count par exécution est enregistré. Les taux d'erreur durablement élevés sont mis en évidence sur le classement.
Planning d'exécution
Toutes les heures sont en UTC. Les benchmarks d'intelligence s'exécutent toutes les 6 heures en parallèle des vérifications de vitesse et de santé. La fraîcheur des données est toujours affichée à côté de chaque résultat de benchmark.
FAQ
Êtes-vous affiliés à un fournisseur d'IA ?+
Pourquoi uniquement la latence UE ?+
Comment gérez-vous le coût des API ?+
Puis-je télécharger les données brutes ?+
Le LLM juge est-il équitable envers tous les modèles ?+
Responsable méthodologie
Cette méthodologie est maintenue et signée par Mes Kalkan. Les changements significatifs sont consignés ci-dessous. Les corrections de données passent par le responsable de la méthodologie et sont publiées dans les 24 heures suivant un signalement vérifié.
Journal des modifications de la méthodologie
- — Méthodologie initiale publiée. Signée par Mes Kalkan.
API de données
Toutes les données de benchmark sont disponibles gratuitement. Aucune clé requise pour l'accès en lecture seule.