Ir al contenido
Consenso multimodelo · juez neutral

Saca a la luz el error que un solo modelo pasa por alto.

Un prompt se distribuye a los mejores modelos en paralelo. Un juez neutral de otro laboratorio señala dónde discrepan — y los reconcilia en una respuesta única y defendible. Alojado en la UE, totalmente trazable.

Reduce los errores que un solo modelo pasaría por alto.

131
modelos seguidos
13,593
ejecuciones benchmark
6
idiomas
Nuevo · acceso anticipado

5 modelos de IA inspeccionan tu imagen — antes que tu audiencia.

Consenso de imagen: un consejo de cinco modelos de visión detecta fallos de anatomía, física e iluminación en imágenes de IA que un solo modelo pasa por alto.

91%
defectos detectados
0
falsos positivos · fotos reales
~71%
máx. con un solo modelo
Unirse a la lista de espera

Más sobre el consenso de imagen →
Piloto 2026-06 · LOKI-35 + fotos de control reales · no es una garantía de producto.

DEFECTOgenerada por IA
LIMPIAfoto real
Consejo:gemini-2.5-progpt-4ofable-5gemini-flashgpt-4o-mini

3 de 5 lo detectaron. Un solo modelo lo habría pasado por alto — de ahí el consejo.

Live rankings

Modelos destacados esta semana

Full leaderboard →

Sample data

Top models — Scientific Reasoning

  • 01Mistral Large 3

    780ms

  • 02Claude Sonnet 4.6

    920ms·

  • 03Llama 3.3 405B

    1.18s

  • 04Gemini 2.5 Pro

    1.42s

  • 05GPT-5o

    1.64s·

  • 06Claude Opus 4.7

    1.82s

Sample · methodology pending

how we test →

Judge verdicts

3,735 evaluations across 63 models — counts only, no customer prompts

⚖️Most endorsed: Claude Opus 4.6 (99% accurate)

Claude Fable 5 — prueba de inteligencia

Resultados independientes, evaluados por un juez, en nuestras categorías de tareas — de pruebas reales, actualizados continuamente.

Leer el análisis completo de Fable 5
93
Puntuación global · /100
20 ejecuciones evaluadas por un juez

Puntuación por categoría de tarea

Multilingüe
100
Razonamiento
99
Programación
99
Creatividad
97
Factual
70

Tiempo de respuesta mediano

Multilingüe9.1s
Razonamiento9.5s
Programación11.1s
Creatividad5.7s
Factual7.0s

Cada respuesta recibe de 0 a 100 de un modelo juez independiente en exactitud, exhaustividad, razonamiento y formato. Las puntuaciones factuales más bajas reflejan nuestras preguntas de conocimiento deliberadamente difíciles.

Notas de la versión
Detección de puntos ciegos

Vea dónde divergen los modelos.

En nuestras pruebas de inteligencia semanales, un juez neutral puntúa cada modelo. Estas son las preguntas donde los modelos más discreparon — los puntos ciegos que un solo modelo habría ocultado. Anonimizado; nunca se muestran prompts de clientes.

63
modelos puntuados
1
juez distinto
3,735
ejecuciones juzgadas
Modeloen acuerdo · marcado por el juez
Gemini 2.5 Flash
16 · 60
Gemini 2.5 Pro
18 · 55
Gemini Pro Latest
26 · 49
Gemini 3.1 Pro Preview Custom Tools
29 · 47
Gemini 3.1 Pro Preview
30 · 46
Gemini 3.5 Flash
4 · 5
Pricing

Sin tarifa en llamadas individuales. La tarifa solo aplica al consenso.

Consulta un modelo y pagas únicamente sus tokens más un pequeño margen de nivel — sin tarifa de plataforma. La tarifa por llamada aplica solo a las verificaciones de consenso multi-modelo. 100 verificaciones gratuitas al mes, sin tarjeta; planes desde €10/mes para 500 llamadas. Cada token desglosado, nada oculto.

Gratis

€0/mes

100 llamadas/mes

tokens: proveedor +5 %

Starter

€10/mes

500 llamadas

tokens: proveedor +4 %

Studio

€25/mes

2.000 llamadas

tokens: proveedor +3 %

Scale

€50/mes

5.000 llamadas

tokens: proveedor +2 %

Precios fundadores, fijos hasta 2027 · PAYG también disponible · "margen de token" = el pequeño % que añadimos al precio del token del proveedor, menor en niveles superiores

Llamada a modelo único
Lo que pagas: tokens + margen
Detalles: Sin tarifa — solo las verificaciones de consenso llevan tarifa por llamada. Pagas el precio de tokens del proveedor más tu margen de nivel (+2–5 %). Ejemplo: un modelo pequeño con ~4k tokens ≈ €0,001.
Llamada de consenso
Lo que pagas: tarifa + tokens + margen
Detalles: La tarifa varía según el plan (PAYG fundadores: 2c/proposer + 3c/juez, un consejo 3+1 = 9c; planes: descuenta de tu cuota mensual; por encima de la cuota: 1,5c/llamada). Además: los tokens del proveedor + tu margen de nivel.
Trae tu propia clave (BYOK)
Lo que pagas: solo tarifa por llamada
Detalles: En consenso pagas solo la tarifa del plan — tu clave factura directamente al proveedor, sin coste de tokens ni margen nuestro. Una llamada BYOK a modelo único no cuesta nada.

Sin tarifa por asiento. Sin tarifa en llamadas individuales. Cada recibo de consenso desglosado por modelo, por token, entrada y salida.

Cada céntimo desglosado

illustrative example
model                 in      out     cost
──────────────────────────────────────────────────
claude-haiku-4.5      812     540     €0.0041
gpt-4o                812     610     €0.0072
gemini-2.5-flash      812     498     €0.0029
judge (gpt-4o)        240     €0.0038
──────────────────────────────────────────────────
orquestación                          included
total                                 €0.0180

Accurate to the last token · your real receipt contains your exact counts

Estima tu coste

500
1005k

€10.00

Precio del plan — exceso a 1,5c/llamada sobre la cuota

€10.00

estimación / mes

Así probamos

Prompts reales, latencia real, puntuaciones reales. Tres niveles mantienen los costes bajo control sin sacrificar la transparencia.

Tier A

Cobertura completa

Velocidad + inteligencia diariamente en cuatro idiomas.

Tier B

Solo velocidad

Latencia y disponibilidad, muestreadas cuatro veces al día.

Tier C

Health ping

Verificación up/down cada quince minutos.

Live · 130+ modelos disponibles

Prueba cualquier modelo — aquí mismo

Elige un modelo, escribe un prompt, mira la respuesta en tiempo real. Sin registro, sin pago, sin cambio de contexto.

Abrir el probador en vivo