Benchmarks

Contrôle qualité image : conseil vs modèles individuels

Quels modèles d'IA détectent les vrais défauts — et lesquels signalent trop de bonnes photos ? Première mesure de référence, juin 2026.

Pilote · première mesuremediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Que avons-nous trouvé ?

Nous avons envoyé 300 images (160 avec un vrai défaut, 140 photos de contrôle saines) à six modèles de vision IA et un conseil de cinq modèles travaillant ensemble. Le conseil a détecté 87,5% des défauts. Le meilleur modèle individuel en a détecté 66,9%. Cet écart — 20,6 points de pourcentage — est le résultat principal.

Rappel conseil

87.5%

défauts correctement détectés

Avantage du conseil

+20.6pp

vs. meilleur modèle individuel

Meilleur modèle seul

66.9%

rappel maximum avec un modèle

Rappel (recall) = la part des vrais défauts que le modèle a trouvés. 87,5% signifie que le modèle a détecté 87,5 images défectueuses sur 100.

Taux de faux positifs = la part des photos saines incorrectement signalées comme défectueuses. Plus ce chiffre est bas, mieux c'est.

Rappel par catégorie = le modèle n'a pas seulement signalé l'image, mais a identifié la bonne catégorie de défaut (p. ex. 'anatomie' plutôt que 'éclairage').

Résultats par modèle

Modèle	Rappel	Taux faux positifs	Rappel catégorie	Latence médiane	Coût moy./image
ConseilConseilCinq modèles votent ensemble. Latence du juge uniquement — la latence des propositions s'ajoute.	87.5%	17.1%	78.8%	1.7 s	0.267 c
Conseil (ancré)Conseil (ancré)Même conseil avec juge ancré sur l'image (bras A/B). FP baisse mais rappel aussi ; drapeau désactivé.	70.6%	10.0%	57.7%	2.2 s	0.448 c
claude-fable-5Solo	66.9%	7.1%	60.3%	7.5 s	3.421 c
gpt-4oSolo	66.9%	15.7%	59.6%	2.3 s	0.437 c
gemini-2.5-proSolo	60.6%	3.6%	48.7%	11.8 s	1.431 c
gemini-2.5-flashSolo	36.9%	7.9%	34.6%	5.2 s	0.238 c
gpt-4o-miniSolo	34.4%	16.4%	30.1%	3.4 s	0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo	9.4%	12.1%	9.0%	3.3 s	0.017 c

Ancrage du juge A/B : utile pour les faux positifs, coûteux pour le rappel

L'ancrage image a réduit les faux positifs de 17,1% à 10,0%. Mais il a aussi réduit le rappel de 16,9 points (p < 0,001). L'amélioration des faux positifs a p ≈ 0,08 à n=140 — directionnel mais pas encore significatif. Le drapeau reste désactivé.

Note sur la latence du conseil

La latence affichée pour les lignes conseil correspond uniquement à l'étape juge. Un appel conseil en direct attend aussi le modèle le plus lent des cinq.

Détails techniques (+)

Composition du jeu de données

300 images au total. 160 images défectueuses : 130 images LOKI annotées par des humains + 30 défauts synthétiques. 140 images de contrôle : 120 vraies photos + 20 contrôles supplémentaires. Toutes les images normalisées en JPEG q90, max 1024px.

Rubrique et classes de défauts

Rubrique version v2. Classes : anatomie, physique (lumière/ombres), texture, arrière-plan, autre.

Conception replay same-proposer

Les modèles individuels ont analysé chaque image indépendamment. Les bras conseil ont exécuté le juge sur les résultats stockés des modèles individuels.

Notes statistiques

Amélioration FPR avec ancrage : 17,1% → 10,0%, p ≈ 0,08 (Fisher exact, n=140). Rappel conseil vs meilleur solo : p < 0,001 (chi-carré, n=160). Les résultats sont un point de départ, pas une garantie produit.

Ceci est une première mesure de référence, pas un benchmark continu ou une garantie produit. Jeu de données : mediaqc-v3-2026-06-10. Date de mesure : 2026-06-10.

← Benchmarks