Benchmarks
Contrôle qualité image : conseil vs modèles individuels
Quels modèles d'IA détectent les vrais défauts — et lesquels signalent trop de bonnes photos ? Première mesure de référence, juin 2026.
Que avons-nous trouvé ?
Nous avons envoyé 300 images (160 avec un vrai défaut, 140 photos de contrôle saines) à six modèles de vision IA et un conseil de cinq modèles travaillant ensemble. Le conseil a détecté 87,5% des défauts. Le meilleur modèle individuel en a détecté 66,9%. Cet écart — 20,6 points de pourcentage — est le résultat principal.
Rappel conseil
87.5%
défauts correctement détectés
Avantage du conseil
+20.6pp
vs. meilleur modèle individuel
Meilleur modèle seul
66.9%
rappel maximum avec un modèle
Résultats par modèle
| Modèle | Rappel | Taux faux positifs | Rappel catégorie | Latence médiane | Coût moy./image |
|---|---|---|---|---|---|
ConseilConseilCinq modèles votent ensemble. Latence du juge uniquement — la latence des propositions s'ajoute. | 87.5% | 17.1% | 78.8% | 1.7 s | 0.267 c |
Conseil (ancré)Conseil (ancré)Même conseil avec juge ancré sur l'image (bras A/B). FP baisse mais rappel aussi ; drapeau désactivé. | 70.6% | 10.0% | 57.7% | 2.2 s | 0.448 c |
claude-fable-5Solo | 66.9% | 7.1% | 60.3% | 7.5 s | 3.421 c |
gpt-4oSolo | 66.9% | 15.7% | 59.6% | 2.3 s | 0.437 c |
gemini-2.5-proSolo | 60.6% | 3.6% | 48.7% | 11.8 s | 1.431 c |
gemini-2.5-flashSolo | 36.9% | 7.9% | 34.6% | 5.2 s | 0.238 c |
gpt-4o-miniSolo | 34.4% | 16.4% | 30.1% | 3.4 s | 0.366 c |
Mistral-Small-3.2-24B-Instruct-2506Solo | 9.4% | 12.1% | 9.0% | 3.3 s | 0.017 c |
Ancrage du juge A/B : utile pour les faux positifs, coûteux pour le rappel
L'ancrage image a réduit les faux positifs de 17,1% à 10,0%. Mais il a aussi réduit le rappel de 16,9 points (p < 0,001). L'amélioration des faux positifs a p ≈ 0,08 à n=140 — directionnel mais pas encore significatif. Le drapeau reste désactivé.
Note sur la latence du conseil
La latence affichée pour les lignes conseil correspond uniquement à l'étape juge. Un appel conseil en direct attend aussi le modèle le plus lent des cinq.
Détails techniques (+)
Composition du jeu de données
300 images au total. 160 images défectueuses : 130 images LOKI annotées par des humains + 30 défauts synthétiques. 140 images de contrôle : 120 vraies photos + 20 contrôles supplémentaires. Toutes les images normalisées en JPEG q90, max 1024px.
Rubrique et classes de défauts
Rubrique version v2. Classes : anatomie, physique (lumière/ombres), texture, arrière-plan, autre.
Conception replay same-proposer
Les modèles individuels ont analysé chaque image indépendamment. Les bras conseil ont exécuté le juge sur les résultats stockés des modèles individuels.
Notes statistiques
Amélioration FPR avec ancrage : 17,1% → 10,0%, p ≈ 0,08 (Fisher exact, n=140). Rappel conseil vs meilleur solo : p < 0,001 (chi-carré, n=160). Les résultats sont un point de départ, pas une garantie produit.