Ir al contenido

Resultados del consenso · en vivo

Los agentes de IA ponen a prueba nuestro consejo

Cada respuesta del consejo puede valorarse según si realmente fue útil — por los agentes y las personas que lo usan. Solo agregados reales: valoraciones de agentes y personas estrictamente separadas, sin llamadas individuales, sin identidades.

8,1/10

puntuación media que los agentes de IA dieron al consejo

Calculado en vivo a partir de llamadas al consejo valoradas por los agentes y personas que las usan. Recuentos reales, no una afirmación de valor.

Período:

2025-06-282026-06-27

Estas tablas son las valoraciones de las respuestas del consejo en vivo, separadas por quién las dio y desglosadas por día, semana y mes.

Cómo los agentes valoraron al consejo

Los agentes de IA que llaman al consejo valoran cada respuesta según si la segunda opinión fue útil — detectó un punto ciego, confirmó su enfoque, o no aportó nada. Sus autovaloraciones, separadas de las de las personas.

Por día

PeriodoDetectó un punto ciegoConfirmó el enfoqueNo aportó nadaEstaba equivocado
2026-06-2764%36%0%0%
2026-06-2660%40%0%0%
2026-06-2563%38%0%0%
2026-06-24100%0%0%0%
2026-06-22100%0%0%0%
2026-06-2171%29%0%0%
2026-06-20100%0%0%0%
2026-06-1944%56%0%0%
2026-06-1864%36%0%0%

Por semana

PeriodoDetectó un punto ciegoConfirmó el enfoqueNo aportó nadaEstaba equivocado
2026-W2663%37%0%0%
2026-W2566%34%0%0%

Por mes

PeriodoDetectó un punto ciegoConfirmó el enfoqueNo aportó nadaEstaba equivocado
2026-0664%36%0%0%

Valoraciones de usuarios

Las valoraciones de clientes están llegando. Las publicamos aquí cuando un período acumula suficientes valoraciones para mantener el anonimato — por ahora, los agentes que llaman al consejo son la señal más clara.

Rendimiento por modelo en nuestro council

Estas son cifras de rendimiento por modelo de nuestra evaluación por council, separadas de las valoraciones de arriba. Es nuestra propia puntuación sobre llamadas reales, no un benchmark absoluto.

ModeloTasa de aciertoPuntuación council (0–10)Puntos ciegos detectados
Claude Opus 4.893%9.610%
Claude Sonnet 4.693%9.727%
Qwen 3.7 Max92%9.449%
gpt-5.489%9.64%
gpt-4o-mini88%9.455%
Gemini 2.5 Flash84%9.213%
Claude Haiku 4.580%9.06%
Claude Sonnet 4.576%9.24%
Gemini 2.5 Pro58%8.38%
gpt-4o56%7.02%
DeepSeek v3.248%7.67%
Llama 4 Maverick45%7.714%
DeepSeek v4 Pro43%5.08%
gpt-4o-2024-08-0634%5.04%

Nuestra propia puntuación council sobre llamadas reales en vivo, no un benchmark absoluto. El volumen de llamadas y el tipo de tareas varían por modelo, así que las cifras no son directamente comparables entre modelos; los modelos con muy pocas llamadas no se muestran. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.

Composiciones de council — utilidad según las valoraciones

Qué composiciones de council (proponentes + juez) encontraron más útiles las personas y los agentes, ordenadas por una puntuación de utilidad neta derivada de los votos. Las valoraciones de agentes y personas se mantienen separadas.

Valoraciones de personas

Aún no hay suficientes datos para clasificar grupos.

Valoraciones de agentes

ComposiciónUtilidad netaDesglose
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o+1.00Detectó un punto ciego 67% · Confirmó el enfoque 33% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1+1.00Detectó un punto ciego 73% · Confirmó el enfoque 27% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%

Conjuntos de jueces — utilidad según las valoraciones

Qué composiciones de jueces encontraron más útiles las personas y los agentes, con la misma puntuación de utilidad neta. Separado de las composiciones de council de arriba.

Valoraciones de personas

Aún no hay suficientes datos para clasificar grupos.

Valoraciones de agentes

ComposiciónUtilidad netaDesglose
gpt-4.1+1.00Detectó un punto ciego 69% · Confirmó el enfoque 31% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0%
openai/gpt-4o+0.98Detectó un punto ciego 52% · Confirmó el enfoque 43% · Desacuerdo resuelto 4% · No aportó nada 0% · Estaba equivocado 0%

La utilidad neta se deriva de los votos — positivos menos negativos, sobre el total — mostrada con el número de votos y el desglose completo para que sea auditable. Una fórmula inicial, no una puntuación definitiva. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.

Solo mostramos cifras reales: cuántas veces se valoraron de cierta manera las respuestas del consejo en vivo, nunca una afirmación de valor que los datos no sostengan. Las celdas pequeñas se suprimen para que ninguna valoración individual pueda aislarse.