Benchmarks

Control de calidad de imagen: consejo vs. modelos individuales

¿Qué modelos de IA detectan defectos reales en fotos — y cuáles generan demasiadas falsas alarmas? Primera medición de referencia, junio 2026.

Piloto · primera mediciónmediaqc-v3-2026-06-10 · n=300 · 2026-06-10

¿Qué encontramos?

Enviamos 300 imágenes (160 con un defecto real, 140 fotos de control limpias) a seis modelos de visión IA y un consejo de cinco modelos trabajando juntos. El consejo detectó el 87,5% de los defectos. El mejor modelo individual detectó el 66,9%. Esa diferencia — 20,6 puntos porcentuales — es el hallazgo principal.

Recall del consejo

87.5%

defectos detectados correctamente

Ventaja del consejo

+20.6pp

vs. mejor modelo individual

Mejor modelo solo

66.9%

recall máximo con un modelo

Recall = la proporción de defectos reales que el modelo encontró. Un recall del 87,5% significa que el modelo detectó 87,5 de cada 100 imágenes defectuosas.

Tasa de falsa alarma (falso positivo) = la proporción de fotos limpias marcadas incorrectamente como defectuosas. Un número más bajo es mejor.

Recall por categoría = el modelo no solo marcó la imagen, sino que identificó la categoría correcta de defecto (p. ej. 'anatomía' en lugar de 'iluminación').

Resultados por modelo

Modelo	Recall	Falsa alarma	Recall categoría	Latencia mediana	Costo prom./imagen
ConsejoConsejoCinco modelos votan juntos. Solo el paso del juez — la latencia de propuesta por modelo se suma.	87.5%	17.1%	78.8%	1.7 s	0.267 c
Consejo (fundamentado)Consejo (fundamentado)Mismo consejo con juez fundamentado en imagen (brazo A/B). FP baja pero recall también; bandera desactivada.	70.6%	10.0%	57.7%	2.2 s	0.448 c
claude-fable-5Solo	66.9%	7.1%	60.3%	7.5 s	3.421 c
gpt-4oSolo	66.9%	15.7%	59.6%	2.3 s	0.437 c
gemini-2.5-proSolo	60.6%	3.6%	48.7%	11.8 s	1.431 c
gemini-2.5-flashSolo	36.9%	7.9%	34.6%	5.2 s	0.238 c
gpt-4o-miniSolo	34.4%	16.4%	30.1%	3.4 s	0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo	9.4%	12.1%	9.0%	3.3 s	0.017 c

Fundamentación del juez A/B: útil para falsas alarmas, costoso para recall

Añadir fundamentación de imagen al juez redujo las falsas alarmas del 17,1% al 10,0%. Pero también redujo el recall en 16,9 puntos porcentuales (p < 0,001). La mejora de falsas alarmas tiene p ≈ 0,08 con n=140 — direccional pero no significativa. La bandera permanece desactivada.

Nota sobre la latencia del consejo

La latencia mostrada para las filas del consejo es solo el paso del juez. Una llamada en vivo al consejo también espera al modelo más lento de los cinco.

Detalles técnicos (+)

Composición del conjunto de datos

300 imágenes en total. 160 imágenes defectuosas: 130 imágenes LOKI anotadas por humanos + 30 defectos sintéticos. 140 imágenes de control: 120 fotos reales + 20 controles adicionales. Todas las imágenes normalizadas a JPEG q90, máximo 1024px.

Rúbrica y clases de defectos

Versión de rúbrica v2. Clases: anatomía, física (iluminación/sombras), textura, fondo, otro.

Diseño de reproducción same-proposer

Los modelos individuales ejecutaron cada imagen de forma independiente. Los brazos del consejo ejecutaron el juez sobre los resultados almacenados de los modelos individuales.

Notas estadísticas

Mejora FPR con fundamentación: 17,1% → 10,0%, p ≈ 0,08 (Fisher exacto, n=140). Recall del consejo vs. mejor solo: p < 0,001 (chi-cuadrado, n=160). Los resultados son un punto de partida, no una garantía de producto.

Esta es una primera medición de referencia, no un benchmark continuo ni una garantía de producto. Conjunto de datos: mediaqc-v3-2026-06-10. Fecha de medición: 2026-06-10.

← Benchmarks