Claude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952msClaude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952msClaude Sonnet 4.6412msGPT-5o589msMistral 24B1.1sLlama 3.3 70B780msGemini 2.5634msDeepSeek-V3952ms

Benchmarks en vivo · Actualizados a diario

IA, medida.

Puntuaciones independientes de latencia y calidad para los modelos de lenguaje líderes del mundo. Actualizadas cada día, en cuatro idiomas, con el conjunto completo de prompts publicado.

Ver la clasificación de hoy →Probar un modelo en vivo

Sigue los modelos que importan

Desde Claude y GPT de nivel frontera hasta Llama y Mistral open-weight rápidos — los probamos todos.

Anthropic

Próximamente

OpenAI

Próximamente

Mistral

Próximamente

Meta Llama

Próximamente

Google Gemini

Próximamente

DeepSeek

Próximamente

Cohere

Próximamente

xAI Grok

Próximamente

Así probamos

Prompts reales, latencia real, puntuaciones reales. Tres niveles mantienen los costes bajo control sin sacrificar la transparencia.

Tier A

Cobertura completa

Velocidad + inteligencia diariamente en cuatro idiomas.

Tier B

Solo velocidad

Latencia y disponibilidad, muestreadas cuatro veces al día.

Tier C

Health ping

Verificación up/down cada quince minutos.

Prueba cualquier modelo — aquí mismo

Elige un modelo, escribe un prompt, mira la respuesta en tiempo real. Sin registro, sin pago, sin cambio de contexto.

Abrir el probador en vivo →