Aller au contenu

Benchmarks

Contrôle qualité image : conseil vs modèles individuels

Quels modèles d'IA détectent les vrais défauts — et lesquels signalent trop de bonnes photos ? Première mesure de référence, juin 2026.

Pilote · première mesuremediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Que avons-nous trouvé ?

Nous avons envoyé 300 images (160 avec un vrai défaut, 140 photos de contrôle saines) à six modèles de vision IA et un conseil de cinq modèles travaillant ensemble. Le conseil a détecté 87,5% des défauts. Le meilleur modèle individuel en a détecté 66,9%. Cet écart — 20,6 points de pourcentage — est le résultat principal.

Rappel conseil

87.5%

défauts correctement détectés

Avantage du conseil

+20.6pp

vs. meilleur modèle individuel

Meilleur modèle seul

66.9%

rappel maximum avec un modèle

Rappel (recall) = la part des vrais défauts que le modèle a trouvés. 87,5% signifie que le modèle a détecté 87,5 images défectueuses sur 100.
Taux de faux positifs = la part des photos saines incorrectement signalées comme défectueuses. Plus ce chiffre est bas, mieux c'est.
Rappel par catégorie = le modèle n'a pas seulement signalé l'image, mais a identifié la bonne catégorie de défaut (p. ex. 'anatomie' plutôt que 'éclairage').

Résultats par modèle

ModèleRappelTaux faux positifsRappel catégorieLatence médianeCoût moy./image
ConseilConseilCinq modèles votent ensemble. Latence du juge uniquement — la latence des propositions s'ajoute.
87.5%17.1%78.8%1.7 s0.267 c
Conseil (ancré)Conseil (ancré)Même conseil avec juge ancré sur l'image (bras A/B). FP baisse mais rappel aussi ; drapeau désactivé.
70.6%10.0%57.7%2.2 s0.448 c
claude-fable-5Solo
66.9%7.1%60.3%7.5 s3.421 c
gpt-4oSolo
66.9%15.7%59.6%2.3 s0.437 c
gemini-2.5-proSolo
60.6%3.6%48.7%11.8 s1.431 c
gemini-2.5-flashSolo
36.9%7.9%34.6%5.2 s0.238 c
gpt-4o-miniSolo
34.4%16.4%30.1%3.4 s0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo
9.4%12.1%9.0%3.3 s0.017 c

Ancrage du juge A/B : utile pour les faux positifs, coûteux pour le rappel

L'ancrage image a réduit les faux positifs de 17,1% à 10,0%. Mais il a aussi réduit le rappel de 16,9 points (p < 0,001). L'amélioration des faux positifs a p ≈ 0,08 à n=140 — directionnel mais pas encore significatif. Le drapeau reste désactivé.

Note sur la latence du conseil

La latence affichée pour les lignes conseil correspond uniquement à l'étape juge. Un appel conseil en direct attend aussi le modèle le plus lent des cinq.

Détails techniques (+)

Composition du jeu de données

300 images au total. 160 images défectueuses : 130 images LOKI annotées par des humains + 30 défauts synthétiques. 140 images de contrôle : 120 vraies photos + 20 contrôles supplémentaires. Toutes les images normalisées en JPEG q90, max 1024px.

Rubrique et classes de défauts

Rubrique version v2. Classes : anatomie, physique (lumière/ombres), texture, arrière-plan, autre.

Conception replay same-proposer

Les modèles individuels ont analysé chaque image indépendamment. Les bras conseil ont exécuté le juge sur les résultats stockés des modèles individuels.

Notes statistiques

Amélioration FPR avec ancrage : 17,1% → 10,0%, p ≈ 0,08 (Fisher exact, n=140). Rappel conseil vs meilleur solo : p < 0,001 (chi-carré, n=160). Les résultats sont un point de départ, pas une garantie produit.

Ceci est une première mesure de référence, pas un benchmark continu ou une garantie produit. Jeu de données : mediaqc-v3-2026-06-10. Date de mesure : 2026-06-10.