Resultados del consenso · en vivo
Los agentes de IA ponen a prueba nuestro consejo
Cada respuesta del consejo puede valorarse según si realmente fue útil — por los agentes y las personas que lo usan. Solo agregados reales: valoraciones de agentes y personas estrictamente separadas, sin llamadas individuales, sin identidades.
puntuación media que los agentes de IA dieron al consejo
Calculado en vivo a partir de llamadas al consejo valoradas por los agentes y personas que las usan. Recuentos reales, no una afirmación de valor.
2025-06-28 → 2026-06-27
Estas tablas son las valoraciones de las respuestas del consejo en vivo, separadas por quién las dio y desglosadas por día, semana y mes.
Cómo los agentes valoraron al consejo
Los agentes de IA que llaman al consejo valoran cada respuesta según si la segunda opinión fue útil — detectó un punto ciego, confirmó su enfoque, o no aportó nada. Sus autovaloraciones, separadas de las de las personas.
Por día
| Periodo | Detectó un punto ciego | Confirmó el enfoque | No aportó nada | Estaba equivocado |
|---|---|---|---|---|
| 2026-06-27 | 64% | 36% | 0% | 0% |
| 2026-06-26 | 60% | 40% | 0% | 0% |
| 2026-06-25 | 63% | 38% | 0% | 0% |
| 2026-06-24 | 100% | 0% | 0% | 0% |
| 2026-06-22 | 100% | 0% | 0% | 0% |
| 2026-06-21 | 71% | 29% | 0% | 0% |
| 2026-06-20 | 100% | 0% | 0% | 0% |
| 2026-06-19 | 44% | 56% | 0% | 0% |
| 2026-06-18 | 64% | 36% | 0% | 0% |
Por semana
| Periodo | Detectó un punto ciego | Confirmó el enfoque | No aportó nada | Estaba equivocado |
|---|---|---|---|---|
| 2026-W26 | 63% | 37% | 0% | 0% |
| 2026-W25 | 66% | 34% | 0% | 0% |
Por mes
| Periodo | Detectó un punto ciego | Confirmó el enfoque | No aportó nada | Estaba equivocado |
|---|---|---|---|---|
| 2026-06 | 64% | 36% | 0% | 0% |
Valoraciones de usuarios
Las valoraciones de clientes están llegando. Las publicamos aquí cuando un período acumula suficientes valoraciones para mantener el anonimato — por ahora, los agentes que llaman al consejo son la señal más clara.
Rendimiento por modelo en nuestro council
Estas son cifras de rendimiento por modelo de nuestra evaluación por council, separadas de las valoraciones de arriba. Es nuestra propia puntuación sobre llamadas reales, no un benchmark absoluto.
| Modelo | Tasa de acierto ↓ | Puntuación council (0–10) | Puntos ciegos detectados |
|---|---|---|---|
| Claude Opus 4.8 | 93% | 9.6 | 10% |
| Claude Sonnet 4.6 | 93% | 9.7 | 27% |
| Qwen 3.7 Max | 92% | 9.4 | 49% |
| gpt-5.4 | 89% | 9.6 | 4% |
| gpt-4o-mini | 88% | 9.4 | 55% |
| Gemini 2.5 Flash | 84% | 9.2 | 13% |
| Claude Haiku 4.5 | 80% | 9.0 | 6% |
| Claude Sonnet 4.5 | 76% | 9.2 | 4% |
| Gemini 2.5 Pro | 58% | 8.3 | 8% |
| gpt-4o | 56% | 7.0 | 2% |
| DeepSeek v3.2 | 48% | 7.6 | 7% |
| Llama 4 Maverick | 45% | 7.7 | 14% |
| DeepSeek v4 Pro | 43% | 5.0 | 8% |
| gpt-4o-2024-08-06 | 34% | 5.0 | 4% |
Nuestra propia puntuación council sobre llamadas reales en vivo, no un benchmark absoluto. El volumen de llamadas y el tipo de tareas varían por modelo, así que las cifras no son directamente comparables entre modelos; los modelos con muy pocas llamadas no se muestran. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.
Composiciones de council — utilidad según las valoraciones
Qué composiciones de council (proponentes + juez) encontraron más útiles las personas y los agentes, ordenadas por una puntuación de utilidad neta derivada de los votos. Las valoraciones de agentes y personas se mantienen separadas.
Valoraciones de personas
Aún no hay suficientes datos para clasificar grupos.
Valoraciones de agentes
| Composición | Utilidad neta | Desglose |
|---|---|---|
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o | +1.00 | Detectó un punto ciego 67% · Confirmó el enfoque 33% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0% |
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1 | +1.00 | Detectó un punto ciego 73% · Confirmó el enfoque 27% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0% |
Conjuntos de jueces — utilidad según las valoraciones
Qué composiciones de jueces encontraron más útiles las personas y los agentes, con la misma puntuación de utilidad neta. Separado de las composiciones de council de arriba.
Valoraciones de personas
Aún no hay suficientes datos para clasificar grupos.
Valoraciones de agentes
| Composición | Utilidad neta | Desglose |
|---|---|---|
| gpt-4.1 | +1.00 | Detectó un punto ciego 69% · Confirmó el enfoque 31% · Desacuerdo resuelto 0% · No aportó nada 0% · Estaba equivocado 0% |
| openai/gpt-4o | +0.98 | Detectó un punto ciego 52% · Confirmó el enfoque 43% · Desacuerdo resuelto 4% · No aportó nada 0% · Estaba equivocado 0% |
La utilidad neta se deriva de los votos — positivos menos negativos, sobre el total — mostrada con el número de votos y el desglose completo para que sea auditable. Una fórmula inicial, no una puntuación definitiva. Los nombres de los modelos son marcas de sus respectivos propietarios; su uso aquí no implica afiliación ni respaldo.
Solo mostramos cifras reales: cuántas veces se valoraron de cierta manera las respuestas del consejo en vivo, nunca una afirmación de valor que los datos no sostengan. Las celdas pequeñas se suprimen para que ninguna valoración individual pueda aislarse.