Ir al contenido
Tier A — Frontera
Se ejecuta en:USCreado en:United States
Anthropic

Claude Haiku 4.5

Tier A — Frontera · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Claude Haiku 4.5 es un modelo de lenguaje desarrollado por Anthropic, posicionado como una opción rápida y eficiente dentro de la familia de modelos Claude. Está diseñado para manejar tareas estándar de generación de texto con latencia reducida en comparación con modelos más grandes de la línea, lo que lo hace adecuado para aplicaciones donde la velocidad de respuesta es una prioridad. El modelo admite una ventana de contexto de 200,000 tokens, lo que le permite procesar y referenciar cantidades sustanciales de texto en una sola interacción. Este modelo está construido para atender casos de uso que requieren inferencia rápida sin la carga computacional de modelos más capaces de Anthropic como Claude Sonnet o Claude Opus. Las aplicaciones típicas incluyen automatización de atención al cliente, moderación de contenido, extracción de datos e implementaciones de chatbot en tiempo real donde el tiempo de respuesta rápido es esencial. Si bien mantiene capacidades fundamentales en razonamiento, seguimiento de instrucciones y comprensión del lenguaje natural, representa un equilibrio entre rendimiento y velocidad dentro de la jerarquía de modelos de Anthropic. Claude Haiku 4.5 se integra en la estructura de modelos escalonados de Anthropic como la opción enfocada en eficiencia, situándose por debajo de Claude Sonnet y Claude Opus en términos de profundidad de razonamiento y manejo de complejidad de tareas. Comparte la misma ventana de contexto extendida que otros modelos de la generación Claude 3.5, permitiendo capacidades consistentes de procesamiento de documentos en toda la línea. El modelo es accesible a través de la API de Anthropic y está diseñado para desarrolladores que necesitan generación de texto confiable con latencia mínima en entornos de producción.

Claude Haiku 4.5 es la opción de baja latencia de Anthropic: 200K tokens de contexto con respuestas más rápidas que los modelos Sonnet y Opus.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
152115021483145414305-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
99
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Claude Haiku 4.5
$1.00 por 1M de tokens de entrada
$5.00 por 1M de tokens de salida
≈ $0.0016 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.00
por 1M de tokens de salida$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

▲ +25% since first

$5.00

output / 1M

▲ +25% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)338 / avg 298
130284

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia mínima en respuestas200K tokens de contextoIdeal para chatbots en tiempo realExtracción de datos eficienteAlta capacidad de procesamientoEntrenamiento constitucional de Anthropic

Debilidades

Razonamiento menos profundo que Sonnet/OpusLimitado en tareas muy complejasMenor precisión en análisis avanzado
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Sección 07

Preguntas frecuentes

Haiku prioriza velocidad de respuesta sobre profundidad de razonamiento; Sonnet ofrece mejor equilibrio entre ambos factores.

La elección óptima cuando la velocidad importa más que la profundidad de razonamiento en aplicaciones de alta demanda.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=21

Últimos 30 días

100.0%

n=21

Tiempo de respuesta mediano

1,912ms

n=21

Basado en 109 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

21

Respuestas OK (30d)

21

Total de llamadas (7d)

21

Respuestas OK (7d)

21

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-592/100 · 76 runs
66 correct8 partial2 wrong87% accuracy
2026-06-14

Claude Haiku 4.5: Major Quality Leap with Increased Latency Trade-off

Claude Haiku 4.5 demonstrates a substantial quality improvement in the current window, jumping 6.7 points to reach an exceptional 99.6 overall score. The model has achieved perfect 100-point scores in both coding and reasoning categories, representing significant gains over the previous window's coding performance and marking the emergence of reasoning as a tracked capability. Multilingual performance remains strong at 99, down just one point from the previous perfect score. However, this quality enhancement comes with a notable performance cost: median latency has increased by 26 percent, rising from 2998ms to 3763ms. This suggests Anthropic may have prioritized capability improvements over speed optimization in this iteration. The shift in tracked categories is noteworthy, with creative and factual assessments absent from current results while reasoning now appears as a measured dimension. Users can expect substantially improved code generation and logical reasoning capabilities, but should account for longer response times in latency-sensitive applications. The near-perfect overall score positions this model among the highest-performing options available, though the speed regression may impact real-time use cases.

Quality

99.6

Latency p50

3,763 ms

Test runs

5

Quality improved 6.7 points Perfect coding and reasoning scores Latency increased 26% Response time now 3763ms
Sección 10

Perfil completo del modelo

Claude Haiku 4.5 — illustration 1
Claude Haiku 4.5: el modelo pequeño de Anthropic tomado en serio

Claude Haiku 4.5 (claude-haiku-4-5-20251001) es la opción compacta de la línea actual de Anthropic. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El perfil de latencia que permite ponerlo frente al usuario sin necesitar una pantalla de carga que pida disculpas.

Anthropic ha estado corrigiendo en silencio los puntos débiles que antes convertían a Haiku en la elección "claramente inferior". El tier Haiku anterior podía volverse frágil en cuanto el prompt se alejaba del territorio conversacional. 4.5 se mantiene mucho mejor en el trabajo intermedio complicado: extraer campos de una factura desordenada, clasificar un ticket de soporte con dos intenciones superpuestas, resumir un hilo largo sin perder la pregunta real del cliente. No es Opus. Tampoco pretende serlo.

Qué le aporta la velocidad

El tiempo hasta el primer token es el dato que importa aquí. Haiku 4.5 comienza a transmitir casi de inmediato en prompts cortos y se mantiene reactivo conforme la entrada crece hacia el límite de su ventana de contexto. Las cifras actualizadas están en /benchmarks/speed — varían semana a semana según Anthropic ajusta la infraestructura, pero Haiku ha sido sistemáticamente uno de los modelos de texto con visión alojados en API más rápidos que medimos.

Ese perfil de latencia cambia lo que se puede construir. Los agentes conversacionales en tiempo real pasan a ser viables sin ingeniería de prompts agresiva para mantener respuestas cortas. Las respuestas RAG en streaming se sienten ágiles incluso cuando el payload de recuperación supera los 50k tokens. Los trabajos de clasificación por lotes que tomarían media hora con Opus terminan en minutos. El coste de un modelo pequeño de primera categoría rara vez se limita al precio por token; son también las simplificaciones arquitectónicas que permite desplegar.

Visión que justifica su uso

Haiku 4.5 hereda el stack de visión del resto de la familia 4.x. Se le pueden pasar capturas de pantalla, documentos escaneados, fotos de formularios, diagramas. Para trabajo de tipo OCR —leer paneles de control, extraer líneas de recibos, transcribir páginas mecanografiadas— cumple suficientemente bien como para raramente tener que escalar a un modelo mayor.

El texto manuscrito sigue siendo el punto débil. Lo mismo ocurre con gráficos de ejes pequeños y figuras científicas densas. Si el documento resulta difícil de leer para un humano en miniatura, Haiku también tendrá problemas. Combínelo con un paso humano en el bucle para cualquier cosa crítica para la seguridad.

Su posición en la oferta

El encuadre honesto: Haiku 4.5 compite con Gemini 2.5 Flash, Gemini 2.5 Flash-Lite y las variantes más pequeñas de GPT-5 de OpenAI para las mismas cargas de trabajo. La elección entre ellos rara vez la decide un único benchmark.

Donde Haiku 4.5 gana:

  • Fiabilidad en salida estructurada. Dale un esquema JSON y lo respeta. Los modelos Claude pequeños anteriores ocasionalmente alucinaban campos extra. Esa regresión parece corregida.
  • Postura ante rechazos. Rechaza prompts límite igual que Opus, con el mismo razonamiento visible. Si su aplicación requiere un comportamiento de guardia consistente entre tiers de modelos, Haiku 4.5 encaja bien.
  • Prosa administrativa en lenguas europeas. Alemán, francés, neerlandés, polaco — la línea Opus siempre ha sido fuerte aquí y Haiku hereda ese linaje. No es perfecto con el idioma legal, pero no anglifica la terminología como hacen algunos modelos pequeños de la competencia.

Donde pierde:

  • Precio por token bruto. Algunos modelos pequeños de la competencia tienen un precio inferior. Para trabajos por lotes puramente orientados al coste a escala masiva, haga los cálculos con las cifras del panel lateral.
  • Latencia en prompts muy largos. Pasados aproximadamente 150k tokens de entrada, el tiempo hasta el primer token aumenta. Gemini 2.5 Flash a veces transmite más rápido en el extremo largo de su ventana.

Para una comparación directa, /benchmarks/leaderboard mantiene la imagen actualizada. Las puntuaciones por categoría se desglosan en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Cualquier tarea que requiera razonamiento profundo de múltiples pasos. Haiku 4.5 no es malo en cadenas de pensamiento, pero no tiene la misma paciencia para la auto-verificación que muestra Opus. Si la tarea implica verificar sus propios pasos intermedios, escale.

Generación de código en bases de código desconocidas. Escribe código razonable, pero un modelo frontier —incluido el propio Sonnet u Opus de Anthropic— produce una salida más idiomática cuando el framework evoluciona rápidamente. Para orientación sobre uso en IDE, consulte /usecases/code.

Voz y audio. Haiku 4.5 no tiene entrada de audio. Ponga un modelo de transcripción por delante si necesita conversación hablada. El árbol de decisión está en /usecases/voice.

Cualquier tarea crítica para la seguridad sin revisión. El modelo está bien alineado y rechaza de forma reflexiva, pero en este tier no debería ejecutar asesoramiento médico, legal o financiero sin supervisión. Eso aplica a todos los modelos pequeños, no solo a este.

Notas de despliegue

API REST. El streaming funciona. Los prompts de sistema se comportan de manera predecible. Las llamadas de uso de herramientas son suficientemente fiables como para construir bucles de agentes sin necesidad de parsers defensivos en cada respuesta.

La disponibilidad regional sigue el mismo patrón de Anthropic que el resto de la línea Claude: la inferencia corre en infraestructura de AWS y Google Cloud, y la API pública no permite fijar una región. Los equipos de la UE con restricciones estrictas de residencia tendrán que negociar un contrato enterprise o buscar una alternativa alojada en OVH o Scaleway. La encuesta en /usecases/local cubre las opciones de peso abierto cuando la residencia no es negociable.

Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.

Cuándo elegirlo

Use Claude Haiku 4.5 cuando:

  • La latencia importa tanto como la calidad.
  • Quiere el mismo comportamiento de rechazo y fiabilidad de salida estructurada que Opus, a una fracción del coste y el tiempo.
  • Hace trabajo de RAG de alto volumen, clasificación o conversación donde la profundidad de razonamiento no es el cuello de botella.
  • Necesita entrada de visión en documentos que un humano podría leer a resolución completa.

No lo use cuando:

  • La tarea requiere razonamiento sostenido de múltiples pasos. Suba a Sonnet u Opus.
  • Necesita audio de entrada o salida. Familia equivocada por completo.
  • El coste domina cualquier otra consideración y puede tolerar menor fiabilidad en salida estructurada — algunos competidores tienen precios más bajos.
  • Necesita despliegue on-premise. Anthropic no distribuye pesos.

El resumen: Haiku 4.5 es un modelo pequeño que se toma en serio. Es el valor predeterminado correcto para cualquier cosa que no requiera específicamente Sonnet u Opus, y el coste de equivocarse en esa elección es más bajo que antes.

Pruébelo contra las alternativas en /live-test. Mismo prompt, múltiples modelos, uno junto al otro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Claude Haiku 4.5 — illustration 2
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
591 ms
Latencia P95
731 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026