¿Cuándo conviene usar Haiku 4.5?

Para automatización de soporte al cliente, moderación de contenido y chatbots donde la rapidez es prioritaria.

¿Puede manejar documentos largos?

Sí, con 200.000 tokens de contexto puede procesar documentos extensos con coherencia.

¿Qué es el entrenamiento constitucional de Anthropic?

Una metodología que guía el comportamiento del modelo durante el entrenamiento para producir respuestas útiles, inofensivas y honestas.

Tier A — Frontera

Se ejecuta en:USCreado en:United States

Anthropic

Claude Haiku 4.5

Tier A — Frontera · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Claude Haiku 4.5 es un modelo de lenguaje desarrollado por Anthropic, posicionado como una opción rápida y eficiente dentro de la familia de modelos Claude. Está diseñado para manejar tareas estándar de generación de texto con latencia reducida en comparación con modelos más grandes de la línea, lo que lo hace adecuado para aplicaciones donde la velocidad de respuesta es una prioridad. El modelo admite una ventana de contexto de 200,000 tokens, lo que le permite procesar y referenciar cantidades sustanciales de texto en una sola interacción. Este modelo está construido para atender casos de uso que requieren inferencia rápida sin la carga computacional de modelos más capaces de Anthropic como Claude Sonnet o Claude Opus. Las aplicaciones típicas incluyen automatización de atención al cliente, moderación de contenido, extracción de datos e implementaciones de chatbot en tiempo real donde el tiempo de respuesta rápido es esencial. Si bien mantiene capacidades fundamentales en razonamiento, seguimiento de instrucciones y comprensión del lenguaje natural, representa un equilibrio entre rendimiento y velocidad dentro de la jerarquía de modelos de Anthropic. Claude Haiku 4.5 se integra en la estructura de modelos escalonados de Anthropic como la opción enfocada en eficiencia, situándose por debajo de Claude Sonnet y Claude Opus en términos de profundidad de razonamiento y manejo de complejidad de tareas. Comparte la misma ventana de contexto extendida que otros modelos de la generación Claude 3.5, permitiendo capacidades consistentes de procesamiento de documentos en toda la línea. El modelo es accesible a través de la API de Anthropic y está diseñado para desarrolladores que necesitan generación de texto confiable con latencia mínima en entornos de producción.

Prueba Claude Haiku 4.5 con tus propias preguntas

Claude Haiku 4.5 es la opción de baja latencia de Anthropic: 200K tokens de contexto con respuestas más rápidas que los modelos Sonnet y Opus.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95101 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

100

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Claude Haiku 4.5

$1.00 por 1M de tokens de entrada

$5.00 por 1M de tokens de salida

≈ $0.0016 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.00

por 1M de tokens de salida$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)263 / avg 266

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia mínima en respuestas200K tokens de contextoIdeal para chatbots en tiempo realExtracción de datos eficienteAlta capacidad de procesamientoEntrenamiento constitucional de Anthropic

Debilidades

Razonamiento menos profundo que Sonnet/OpusLimitado en tareas muy complejasMenor precisión en análisis avanzado

Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000

Sección 07

Preguntas frecuentes

Haiku prioriza velocidad de respuesta sobre profundidad de razonamiento; Sonnet ofrece mejor equilibrio entre ambos factores.

La elección óptima cuando la velocidad importa más que la profundidad de razonamiento en aplicaciones de alta demanda.
— Resumen de benchmark Tokonomix

Sección 08

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=17

Últimos 30 días

100.0%

n=510

Tiempo de respuesta mediano

6,474ms

n=510

Basado en 890 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

510

Respuestas OK (30d)

510

Total de llamadas (7d)

Respuestas OK (7d)

Sección 09

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 116 runs

103 correct9 partial4 wrong89% accuracy

● 2026-07-26

Claude Haiku 4.5: Speed Gains Offset by Quality Regression

Claude Haiku 4.5 shows a notable 38% latency improvement, dropping from 4596ms to 2855ms median response time, making it significantly faster for production use cases. However, this performance gain comes alongside a concerning 3.2-point decrease in overall quality score, falling from 97.7 to 94.5. The model continues to excel in reasoning and multilingual tasks, both scoring perfect hundreds, with multilingual performance slightly improving from 98. Creative output remains strong at 96, up marginally from 95. The most significant concern is the absence of coding scores in the current window despite previous perfect performance, suggesting either test coverage changes or potential capability regression in this domain. Factual accuracy shows at 82, representing a new measurement category. The model maintains exceptional performance in core capabilities while delivering substantially faster responses, but users relying on coding tasks should exercise caution until this capability is re-verified. The quality-speed tradeoff appears deliberate, positioning this version for latency-sensitive applications where the modest quality decrease is acceptable.

Quality

94.5

Latency p50

2,855 ms

Test runs

✓ 38% faster response time✗ 3.2-point quality decrease✓ Perfect reasoning and multilingual scores✗ Coding performance not measured

Sección 10

Perfil completo del modelo

Claude Haiku 4.5: el modelo pequeño de Anthropic tomado en serio

Claude Haiku 4.5 (claude-haiku-4-5-20251001) es la opción compacta de la línea actual de Anthropic. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El perfil de latencia que permite ponerlo frente al usuario sin necesitar una pantalla de carga que pida disculpas.

Anthropic ha estado corrigiendo en silencio los puntos débiles que antes convertían a Haiku en la elección "claramente inferior". El tier Haiku anterior podía volverse frágil en cuanto el prompt se alejaba del territorio conversacional. 4.5 se mantiene mucho mejor en el trabajo intermedio complicado: extraer campos de una factura desordenada, clasificar un ticket de soporte con dos intenciones superpuestas, resumir un hilo largo sin perder la pregunta real del cliente. No es Opus. Tampoco pretende serlo.

Qué le aporta la velocidad

El tiempo hasta el primer token es el dato que importa aquí. Haiku 4.5 comienza a transmitir casi de inmediato en prompts cortos y se mantiene reactivo conforme la entrada crece hacia el límite de su ventana de contexto. Las cifras actualizadas están en /benchmarks/speed — varían semana a semana según Anthropic ajusta la infraestructura, pero Haiku ha sido sistemáticamente uno de los modelos de texto con visión alojados en API más rápidos que medimos.

Ese perfil de latencia cambia lo que se puede construir. Los agentes conversacionales en tiempo real pasan a ser viables sin ingeniería de prompts agresiva para mantener respuestas cortas. Las respuestas RAG en streaming se sienten ágiles incluso cuando el payload de recuperación supera los 50k tokens. Los trabajos de clasificación por lotes que tomarían media hora con Opus terminan en minutos. El coste de un modelo pequeño de primera categoría rara vez se limita al precio por token; son también las simplificaciones arquitectónicas que permite desplegar.

Visión que justifica su uso

Haiku 4.5 hereda el stack de visión del resto de la familia 4.x. Se le pueden pasar capturas de pantalla, documentos escaneados, fotos de formularios, diagramas. Para trabajo de tipo OCR —leer paneles de control, extraer líneas de recibos, transcribir páginas mecanografiadas— cumple suficientemente bien como para raramente tener que escalar a un modelo mayor.

El texto manuscrito sigue siendo el punto débil. Lo mismo ocurre con gráficos de ejes pequeños y figuras científicas densas. Si el documento resulta difícil de leer para un humano en miniatura, Haiku también tendrá problemas. Combínelo con un paso humano en el bucle para cualquier cosa crítica para la seguridad.

Su posición en la oferta

El encuadre honesto: Haiku 4.5 compite con Gemini 2.5 Flash, Gemini 2.5 Flash-Lite y las variantes más pequeñas de GPT-5 de OpenAI para las mismas cargas de trabajo. La elección entre ellos rara vez la decide un único benchmark.

Donde Haiku 4.5 gana:

Fiabilidad en salida estructurada. Dale un esquema JSON y lo respeta. Los modelos Claude pequeños anteriores ocasionalmente alucinaban campos extra. Esa regresión parece corregida.
Postura ante rechazos. Rechaza prompts límite igual que Opus, con el mismo razonamiento visible. Si su aplicación requiere un comportamiento de guardia consistente entre tiers de modelos, Haiku 4.5 encaja bien.
Prosa administrativa en lenguas europeas. Alemán, francés, neerlandés, polaco — la línea Opus siempre ha sido fuerte aquí y Haiku hereda ese linaje. No es perfecto con el idioma legal, pero no anglifica la terminología como hacen algunos modelos pequeños de la competencia.

Donde pierde:

Precio por token bruto. Algunos modelos pequeños de la competencia tienen un precio inferior. Para trabajos por lotes puramente orientados al coste a escala masiva, haga los cálculos con las cifras del panel lateral.
Latencia en prompts muy largos. Pasados aproximadamente 150k tokens de entrada, el tiempo hasta el primer token aumenta. Gemini 2.5 Flash a veces transmite más rápido en el extremo largo de su ventana.

Para una comparación directa, /benchmarks/leaderboard mantiene la imagen actualizada. Las puntuaciones por categoría se desglosan en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Cualquier tarea que requiera razonamiento profundo de múltiples pasos. Haiku 4.5 no es malo en cadenas de pensamiento, pero no tiene la misma paciencia para la auto-verificación que muestra Opus. Si la tarea implica verificar sus propios pasos intermedios, escale.

Generación de código en bases de código desconocidas. Escribe código razonable, pero un modelo frontier —incluido el propio Sonnet u Opus de Anthropic— produce una salida más idiomática cuando el framework evoluciona rápidamente. Para orientación sobre uso en IDE, consulte /usecases/code.

Voz y audio. Haiku 4.5 no tiene entrada de audio. Ponga un modelo de transcripción por delante si necesita conversación hablada. El árbol de decisión está en /usecases/voice.

Cualquier tarea crítica para la seguridad sin revisión. El modelo está bien alineado y rechaza de forma reflexiva, pero en este tier no debería ejecutar asesoramiento médico, legal o financiero sin supervisión. Eso aplica a todos los modelos pequeños, no solo a este.

Notas de despliegue

API REST. El streaming funciona. Los prompts de sistema se comportan de manera predecible. Las llamadas de uso de herramientas son suficientemente fiables como para construir bucles de agentes sin necesidad de parsers defensivos en cada respuesta.

La disponibilidad regional sigue el mismo patrón de Anthropic que el resto de la línea Claude: la inferencia corre en infraestructura de AWS y Google Cloud, y la API pública no permite fijar una región. Los equipos de la UE con restricciones estrictas de residencia tendrán que negociar un contrato enterprise o buscar una alternativa alojada en OVH o Scaleway. La encuesta en /usecases/local cubre las opciones de peso abierto cuando la residencia no es negociable.

Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.

Cuándo elegirlo

Use Claude Haiku 4.5 cuando:

La latencia importa tanto como la calidad.
Quiere el mismo comportamiento de rechazo y fiabilidad de salida estructurada que Opus, a una fracción del coste y el tiempo.
Hace trabajo de RAG de alto volumen, clasificación o conversación donde la profundidad de razonamiento no es el cuello de botella.
Necesita entrada de visión en documentos que un humano podría leer a resolución completa.

No lo use cuando:

La tarea requiere razonamiento sostenido de múltiples pasos. Suba a Sonnet u Opus.
Necesita audio de entrada o salida. Familia equivocada por completo.
El coste domina cualquier otra consideración y puede tolerar menor fiabilidad en salida estructurada — algunos competidores tienen precios más bajos.
Necesita despliegue on-premise. Anthropic no distribuye pesos.

El resumen: Haiku 4.5 es un modelo pequeño que se toma en serio. Es el valor predeterminado correcto para cualquier cosa que no requiera específicamente Sonnet u Opus, y el coste de equivocarse en esa elección es más bajo que antes.

Pruébelo contra las alternativas en /live-test. Mismo prompt, múltiples modelos, uno junto al otro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

30 jul 2026 · 08:06 UTC · Benchmark de velocidad

Latencia P50

761 ms

Latencia P95

1895 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026