Benchmarks
Control de calidad de imagen: consejo vs. modelos individuales
¿Qué modelos de IA detectan defectos reales en fotos — y cuáles generan demasiadas falsas alarmas? Primera medición de referencia, junio 2026.
¿Qué encontramos?
Enviamos 300 imágenes (160 con un defecto real, 140 fotos de control limpias) a seis modelos de visión IA y un consejo de cinco modelos trabajando juntos. El consejo detectó el 87,5% de los defectos. El mejor modelo individual detectó el 66,9%. Esa diferencia — 20,6 puntos porcentuales — es el hallazgo principal.
Recall del consejo
87.5%
defectos detectados correctamente
Ventaja del consejo
+20.6pp
vs. mejor modelo individual
Mejor modelo solo
66.9%
recall máximo con un modelo
Resultados por modelo
| Modelo | Recall | Falsa alarma | Recall categoría | Latencia mediana | Costo prom./imagen |
|---|---|---|---|---|---|
ConsejoConsejoCinco modelos votan juntos. Solo el paso del juez — la latencia de propuesta por modelo se suma. | 87.5% | 17.1% | 78.8% | 1.7 s | 0.267 c |
Consejo (fundamentado)Consejo (fundamentado)Mismo consejo con juez fundamentado en imagen (brazo A/B). FP baja pero recall también; bandera desactivada. | 70.6% | 10.0% | 57.7% | 2.2 s | 0.448 c |
claude-fable-5Solo | 66.9% | 7.1% | 60.3% | 7.5 s | 3.421 c |
gpt-4oSolo | 66.9% | 15.7% | 59.6% | 2.3 s | 0.437 c |
gemini-2.5-proSolo | 60.6% | 3.6% | 48.7% | 11.8 s | 1.431 c |
gemini-2.5-flashSolo | 36.9% | 7.9% | 34.6% | 5.2 s | 0.238 c |
gpt-4o-miniSolo | 34.4% | 16.4% | 30.1% | 3.4 s | 0.366 c |
Mistral-Small-3.2-24B-Instruct-2506Solo | 9.4% | 12.1% | 9.0% | 3.3 s | 0.017 c |
Fundamentación del juez A/B: útil para falsas alarmas, costoso para recall
Añadir fundamentación de imagen al juez redujo las falsas alarmas del 17,1% al 10,0%. Pero también redujo el recall en 16,9 puntos porcentuales (p < 0,001). La mejora de falsas alarmas tiene p ≈ 0,08 con n=140 — direccional pero no significativa. La bandera permanece desactivada.
Nota sobre la latencia del consejo
La latencia mostrada para las filas del consejo es solo el paso del juez. Una llamada en vivo al consejo también espera al modelo más lento de los cinco.
Detalles técnicos (+)
Composición del conjunto de datos
300 imágenes en total. 160 imágenes defectuosas: 130 imágenes LOKI anotadas por humanos + 30 defectos sintéticos. 140 imágenes de control: 120 fotos reales + 20 controles adicionales. Todas las imágenes normalizadas a JPEG q90, máximo 1024px.
Rúbrica y clases de defectos
Versión de rúbrica v2. Clases: anatomía, física (iluminación/sombras), textura, fondo, otro.
Diseño de reproducción same-proposer
Los modelos individuales ejecutaron cada imagen de forma independiente. Los brazos del consejo ejecutaron el juez sobre los resultados almacenados de los modelos individuales.
Notas estadísticas
Mejora FPR con fundamentación: 17,1% → 10,0%, p ≈ 0,08 (Fisher exacto, n=140). Recall del consejo vs. mejor solo: p < 0,001 (chi-cuadrado, n=160). Los resultados son un punto de partida, no una garantía de producto.