Saca a la luz el error que un solo modelo pasa por alto.
Un prompt se distribuye a los mejores modelos en paralelo. Un juez neutral de otro laboratorio señala dónde discrepan — y los reconcilia en una respuesta única y defendible. Alojado en la UE, totalmente trazable.
Reduce los errores que un solo modelo pasaría por alto.
- 131
- modelos seguidos
- 13,593
- ejecuciones benchmark
- 6
- idiomas
¿Entró en vigor la Ley de IA de la UE en 2024?
- claude-opus-4.8Yes — entered into force August 2024.
- gpt-5.1No, that was 2023.
- gemini-3-proYes, August 2024.
Ejemplo ilustrativo — datos sintéticos
5 modelos de IA inspeccionan tu imagen — antes que tu audiencia.
Consenso de imagen: un consejo de cinco modelos de visión detecta fallos de anatomía, física e iluminación en imágenes de IA que un solo modelo pasa por alto.
Más sobre el consenso de imagen →
Piloto 2026-06 · LOKI-35 + fotos de control reales · no es una garantía de producto.
3 de 5 lo detectaron. Un solo modelo lo habría pasado por alto — de ahí el consejo.
Live rankings
Modelos destacados esta semana
Sample data
Top models — Scientific Reasoning
01Mistral Large 3Mistral
780ms↓
02Claude Sonnet 4.6Anthropic
920ms·
03Llama 3.3 405BMeta
1.18s↑
04Gemini 2.5 ProGoogle
1.42s↑
05GPT-5oOpenAI
1.64s·
06Claude Opus 4.7Anthropic
1.82s↑
Sample · methodology pending
how we test →Judge verdicts
3,735 evaluations across 63 models — counts only, no customer prompts
Claude Fable 5 — prueba de inteligencia
Resultados independientes, evaluados por un juez, en nuestras categorías de tareas — de pruebas reales, actualizados continuamente.
Puntuación por categoría de tarea
Tiempo de respuesta mediano
Cada respuesta recibe de 0 a 100 de un modelo juez independiente en exactitud, exhaustividad, razonamiento y formato. Las puntuaciones factuales más bajas reflejan nuestras preguntas de conocimiento deliberadamente difíciles.
Notas de la versión →Vea dónde divergen los modelos.
En nuestras pruebas de inteligencia semanales, un juez neutral puntúa cada modelo. Estas son las preguntas donde los modelos más discreparon — los puntos ciegos que un solo modelo habría ocultado. Anonimizado; nunca se muestran prompts de clientes.
Models ranked
Top 10 de modelos de IA
Anthropic
Claude Opus 4.5
99.2
quality score
6,978
ms p50
Anthropic
Claude Opus 4.7
99.2
quality score
8,347
ms p50
Anthropic
Claude Opus 4.6
98.7
quality score
8,280
ms p50
Anthropic
Claude Opus 4.8
98.6
quality score
6,696
ms p50
OpenAI
gpt-4.1
98.4
quality score
1,711
ms p50
Anthropic
Claude Sonnet 4.6
97.9
quality score
7,490
ms p50
Anthropic
Claude Sonnet 4.5
95.9
quality score
6,728
ms p50
Anthropic
Claude Haiku 4.5
95.7
quality score
3,326
ms p50
Google Gemini
Gemini 2.5 Flash-Lite
94.7
quality score
1,572
ms p50
Google Gemini
Gemini Flash Latest
53.3
quality score
4,366
ms p50
Sin tarifa en llamadas individuales. La tarifa solo aplica al consenso.
Consulta un modelo y pagas únicamente sus tokens más un pequeño margen de nivel — sin tarifa de plataforma. La tarifa por llamada aplica solo a las verificaciones de consenso multi-modelo. 100 verificaciones gratuitas al mes, sin tarjeta; planes desde €10/mes para 500 llamadas. Cada token desglosado, nada oculto.
Gratis
€0/mes
100 llamadas/mes
tokens: proveedor +5 %
Starter
€10/mes
500 llamadas
tokens: proveedor +4 %
Studio
€25/mes
2.000 llamadas
tokens: proveedor +3 %
Scale
€50/mes
5.000 llamadas
tokens: proveedor +2 %
Precios fundadores, fijos hasta 2027 · PAYG también disponible · "margen de token" = el pequeño % que añadimos al precio del token del proveedor, menor en niveles superiores
Sin tarifa por asiento. Sin tarifa en llamadas individuales. Cada recibo de consenso desglosado por modelo, por token, entrada y salida.
Cada céntimo desglosado
illustrative examplemodel in out cost ────────────────────────────────────────────────── claude-haiku-4.5 812 540 €0.0041 gpt-4o 812 610 €0.0072 gemini-2.5-flash 812 498 €0.0029 judge (gpt-4o) — 240 €0.0038 ────────────────────────────────────────────────── orquestación included total €0.0180
Accurate to the last token · your real receipt contains your exact counts
Estima tu coste
€10.00
Precio del plan — exceso a 1,5c/llamada sobre la cuota
€10.00
estimación / mes
Community
Lo que vota la comunidad
Top-rated test answers
Schrijf een Python-functie `is_palindroom(s: str) -> bool` die True retourneert als de invoerstring een palindroom is (hoofdletters negeren, leestekens negeren). Voeg twee testcases toe.
What is the name of the protein discovered by Dr. Elena Voskresensky in 2019 that reverses telomere shortening in human cells?
In which year did the European Union introduce the GDPR regulation?
Suggested test questions
No suggestions yet.
Run a test and suggest a question →Así probamos
Prompts reales, latencia real, puntuaciones reales. Tres niveles mantienen los costes bajo control sin sacrificar la transparencia.
Cobertura completa
Velocidad + inteligencia diariamente en cuatro idiomas.
Solo velocidad
Latencia y disponibilidad, muestreadas cuatro veces al día.
Health ping
Verificación up/down cada quince minutos.
Prueba cualquier modelo — aquí mismo
Elige un modelo, escribe un prompt, mira la respuesta en tiempo real. Sin registro, sin pago, sin cambio de contexto.
Abrir el probador en vivo →