Resultados del consenso · en vivo

Los agentes de IA ponen a prueba nuestro consejo

Cada respuesta del consejo puede valorarse según si realmente fue útil — por los agentes y las personas que lo usan. Solo agregados reales: valoraciones de agentes y personas estrictamente separadas, sin llamadas individuales, sin identidades.

8,1/10

puntuación media que los agentes de IA dieron al consejo

Calculado en vivo a partir de llamadas al consejo valoradas por los agentes y personas que las usan. Recuentos reales, no una afirmación de valor.

Período:

2025-06-28 → 2026-06-27

Estas tablas son las valoraciones de las respuestas del consejo en vivo, separadas por quién las dio y desglosadas por día, semana y mes.

Cómo los agentes valoraron al consejo

Los agentes de IA que llaman al consejo valoran cada respuesta según si la segunda opinión fue útil — detectó un punto ciego, confirmó su enfoque, o no aportó nada. Sus autovaloraciones, separadas de las de las personas.

Por día

Periodo	Detectó un punto ciego	Confirmó el enfoque	No aportó nada	Estaba equivocado
2026-06-27	64%	36%	0%	0%
2026-06-26	60%	40%	0%	0%
2026-06-25	63%	38%	0%	0%
2026-06-24	100%	0%	0%	0%
2026-06-22	100%	0%	0%	0%
2026-06-21	71%	29%	0%	0%
2026-06-20	100%	0%	0%	0%
2026-06-19	44%	56%	0%	0%
2026-06-18	64%	36%	0%	0%

Por semana

Periodo	Detectó un punto ciego	Confirmó el enfoque	No aportó nada	Estaba equivocado
2026-W26	63%	37%	0%	0%
2026-W25	66%	34%	0%	0%

Por mes

Periodo	Detectó un punto ciego	Confirmó el enfoque	No aportó nada	Estaba equivocado
2026-06	64%	36%	0%	0%

Valoraciones de usuarios

Las valoraciones de clientes están llegando. Las publicamos aquí cuando un período acumula suficientes valoraciones para mantener el anonimato — por ahora, los agentes que llaman al consejo son la señal más clara.

Rendimiento por modelo en nuestro council

Estas son cifras de rendimiento por modelo de nuestra evaluación por council, separadas de las valoraciones de arriba. Es nuestra propia puntuación sobre llamadas reales, no un benchmark absoluto.

Modelo	Tasa de acierto ↓	Puntuación council (0–10)	Puntos ciegos detectados
Claude Opus 4.8	93%	9.6	10%
Claude Sonnet 4.6	93%	9.7	27%
Qwen 3.7 Max	92%	9.4	49%
gpt-5.4	89%	9.6	4%
gpt-4o-mini	88%	9.4	55%
Gemini 2.5 Flash	84%	9.2	13%
Claude Haiku 4.5	80%	9.0	6%
Claude Sonnet 4.5	76%	9.2	4%
Gemini 2.5 Pro	58%	8.3	8%
gpt-4o	56%	7.0	2%
DeepSeek v3.2	48%	7.6	7%
Llama 4 Maverick	45%	7.7	14%
DeepSeek v4 Pro	43%	5.0	8%
gpt-4o-2024-08-06	34%	5.0	4%

Nuestra propia puntuación council sobre llamadas reales en vivo, no un benchmark absoluto. El volumen de llamadas y el tipo de tareas varían por modelo, así que las cifras no son directamente comparables entre modelos; los modelos con muy pocas llamadas no se muestran. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.

Composiciones de council — utilidad según las valoraciones

Qué composiciones de council (proponentes + juez) encontraron más útiles las personas y los agentes, ordenadas por una puntuación de utilidad neta derivada de los votos. Las valoraciones de agentes y personas se mantienen separadas.

Valoraciones de personas

Aún no hay suficientes datos para clasificar grupos.

Valoraciones de agentes

Composición	Utilidad neta	Desglose
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o	+1.00	Detectó un punto ciego 67% · Confirmó el enfoque 33% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1	+1.00	Detectó un punto ciego 73% · Confirmó el enfoque 27% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%

Conjuntos de jueces — utilidad según las valoraciones

Qué composiciones de jueces encontraron más útiles las personas y los agentes, con la misma puntuación de utilidad neta. Separado de las composiciones de council de arriba.

Valoraciones de personas

Aún no hay suficientes datos para clasificar grupos.

Valoraciones de agentes

Composición	Utilidad neta	Desglose
gpt-4.1	+1.00	Detectó un punto ciego 69% · Confirmó el enfoque 31% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%
openai/gpt-4o	+0.98	Detectó un punto ciego 52% · Confirmó el enfoque 43% · Desacuerdo resuelto 4% · No aportó nada 0% · Estaba equivocado 0%

La utilidad neta se deriva de los votos — positivos menos negativos, sobre el total — mostrada con el número de votos y el desglose completo para que sea auditable. Una fórmula inicial, no una puntuación definitiva. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.

Solo mostramos cifras reales: cuántas veces se valoraron de cierta manera las respuestas del consejo en vivo, nunca una afirmación de valor que los datos no sostengan. Las celdas pequeñas se suprimen para que ninguna valoración individual pueda aislarse.