Claude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952msClaude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952msClaude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952ms
Benchmarks en vivo · Actualizados a diario
IA, medida.
Puntuaciones independientes de latencia y calidad para los modelos de lenguaje líderes del mundo. Actualizadas cada día, en cuatro idiomas, con el conjunto completo de prompts publicado.
Sigue los modelos que importan
Desde Claude y GPT de nivel frontera hasta Llama y Mistral open-weight rápidos — los probamos todos.
Anthropic
Próximamente
OpenAI
Próximamente
Mistral
Próximamente
Meta Llama
Próximamente
Google Gemini
Próximamente
DeepSeek
Próximamente
Cohere
Próximamente
xAI Grok
Próximamente
Así probamos
Prompts reales, latencia real, puntuaciones reales. Tres niveles mantienen los costes bajo control sin sacrificar la transparencia.
Tier A
Cobertura completa
Velocidad + inteligencia diariamente en cuatro idiomas.
Tier B
Solo velocidad
Latencia y disponibilidad, muestreadas cuatro veces al día.
Tier C
Health ping
Verificación up/down cada quince minutos.
Prueba cualquier modelo — aquí mismo
Elige un modelo, escribe un prompt, mira la respuesta en tiempo real. Sin registro, sin pago, sin cambio de contexto.
Abrir el probador en vivo →