Ir al contenido

Evidencia en vivo

Por qué un solo modelo no es suficiente

Datos reales de cada ejecución del consejo que procesamos — actualizados cada 15 minutos. Sin simulaciones, sin ejemplos seleccionados a mano.

Cobertura de puntos ciegos

Un punto ciego es una vulnerabilidad o error real que un modelo pasa por alto silenciosamente mientras otro modelo en el mismo consejo lo detecta. El gráfico muestra qué modelos proporcionan con más frecuencia el hallazgo único — el resultado que ningún otro modelo del panel había marcado.

Modelo · Tasa de captura única

  • 1Gpt 4o Mini
    100.0%
    55.2%
  • 2Qwen3.7 Max
    89.3%
    49.3%
  • 3Claude Sonnet 4 6
    50.2%
    27.7%
  • 4Llama 4 Maverick
    25.4%
    14.0%
  • 5Gemini 2.5 Flash
    23.4%
    12.9%
  • 6Claude Opus 4 8
    20.5%
    11.3%
  • 7Gemini 2.5 Pro
    13.8%
    7.6%
  • 8Deepseek V4 Pro
    13.2%
    7.3%

Ordenado por tasa de captura única. Solo se muestran los modelos con datos suficientes. Las tasas son porcentajes de los propios eventos de un modelo.

Puntuaciones de calidad

Puntuación de calidad promedio (0–100) y tasa ok, calculadas sobre todas las evaluaciones de juez donde el modelo actuó como proponente. Tasa ok = fracción de veredictos calificados como completamente correctos.

ModeloCalidad prom. (0–100)Tasa ok
Gpt 5.1100.0100.0%
Gpt 5.4 Nano 2026 03 17100.0100.0%
Gpt 5.2 2025 12 11100.0100.0%
Gpt 5.4100.089.1%
Gpt 5.3 Chat Latest100.0100.0%
Gpt 5.2 Chat Latest99.8100.0%
Gpt 5.299.8100.0%
Gpt 5.1 2025 11 1399.6100.0%

Fiabilidad

Tasa de ruido = fracción de respuestas del modelo que el clasificador del consejo marca como fuera del tema o de baja señal. Tasa de error = fracción de llamadas API que devolvieron un error. Ambas son promedios de todos los modelos calificados.

Tasa de ruido prom.

1.99%

Parte de las respuestas marcadas como ruido por el clasificador.

Tasa de error API prom.

0.62%

Parte de las llamadas de modelo que devolvieron un error.

Benchmark de revisión de seguridad (INT-1929)

Prueba ciega pre-registrada · 12 vulnerabilidades sembradas + 4 controles limpios · evaluador ciego: modelo independiente no en el consejo · costo: €0,43

Creamos una tarea realista de revisión de código con 12 clases de vulnerabilidades reales y 4 controles limpios. Cada brazo funcionó de forma independiente. El evaluador ciego no sabía qué brazo había producido qué resultado.

BrazoRecall (de 12)Falsos positivos (de 4)
GPT-4o (single)7 / 121
Gemini 2.5 Flash (single)11 / 125
Claude Haiku 4.5 (single)12 / 125
Consejo — consenso12 / 127
Hallazgo clave

GPT-4o informó silenciosamente "No se encontraron problemas de seguridad" en 5 de las 12 vulnerabilidades reales — el canal lateral de temporización, el IDOR, la verificación de autorización faltante, el token de restablecimiento predecible y la carrera TOCTOU. Estos son los errores de contexto y lógica, no los del libro de texto. El consejo encontró los cinco.

Varianza eliminada

El recall por modelo único varió del 58% (GPT-4o) al 100% (Claude Haiku) en las mismas tareas. No se sabe de antemano qué modelo es más fuerte para el error en cuestión. El consejo entrega un recall de primer nivel sin ese riesgo.

Techo honesto

El consejo no superó al mejor modelo único en recall — lo igualó (12/12). Este benchmark muestra confiabilidad y eliminación de varianza, no "encuentra más errores que cualquier modelo". Lo informamos honestamente.

Compensación de precisión

Un recall más alto cuesta algo de precisión. Falsos positivos en código limpio: GPT-4o obtuvo 1 (conservador pero perdió 5 errores reales), mientras que el consejo obtuvo 7. Un humano revisa los marcadores adicionales — esa revisión es el costo de no perder el canal lateral de temporización.

Señal creciente

Una señal de retroalimentación de agentes y humanos está creciendo activamente. Publicaremos calificaciones y estadísticas de acuerdo una vez que el conjunto de datos sea lo suficientemente grande como para ser significativo.

Datos en vivo obtenidos a las 1 jul 2026, 21:51