
Claude Haiku 4.5 (claude-haiku-4-5-20251001) es la opción compacta de la línea actual de Anthropic. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El perfil de latencia que permite ponerlo frente al usuario sin necesitar una pantalla de carga que pida disculpas.
Anthropic ha estado corrigiendo en silencio los puntos débiles que antes convertían a Haiku en la elección "claramente inferior". El tier Haiku anterior podía volverse frágil en cuanto el prompt se alejaba del territorio conversacional. 4.5 se mantiene mucho mejor en el trabajo intermedio complicado: extraer campos de una factura desordenada, clasificar un ticket de soporte con dos intenciones superpuestas, resumir un hilo largo sin perder la pregunta real del cliente. No es Opus. Tampoco pretende serlo.
Qué le aporta la velocidad
El tiempo hasta el primer token es el dato que importa aquí. Haiku 4.5 comienza a transmitir casi de inmediato en prompts cortos y se mantiene reactivo conforme la entrada crece hacia el límite de su ventana de contexto. Las cifras actualizadas están en /benchmarks/speed — varían semana a semana según Anthropic ajusta la infraestructura, pero Haiku ha sido sistemáticamente uno de los modelos de texto con visión alojados en API más rápidos que medimos.
Ese perfil de latencia cambia lo que se puede construir. Los agentes conversacionales en tiempo real pasan a ser viables sin ingeniería de prompts agresiva para mantener respuestas cortas. Las respuestas RAG en streaming se sienten ágiles incluso cuando el payload de recuperación supera los 50k tokens. Los trabajos de clasificación por lotes que tomarían media hora con Opus terminan en minutos. El coste de un modelo pequeño de primera categoría rara vez se limita al precio por token; son también las simplificaciones arquitectónicas que permite desplegar.
Visión que justifica su uso
Haiku 4.5 hereda el stack de visión del resto de la familia 4.x. Se le pueden pasar capturas de pantalla, documentos escaneados, fotos de formularios, diagramas. Para trabajo de tipo OCR —leer paneles de control, extraer líneas de recibos, transcribir páginas mecanografiadas— cumple suficientemente bien como para raramente tener que escalar a un modelo mayor.
El texto manuscrito sigue siendo el punto débil. Lo mismo ocurre con gráficos de ejes pequeños y figuras científicas densas. Si el documento resulta difícil de leer para un humano en miniatura, Haiku también tendrá problemas. Combínelo con un paso humano en el bucle para cualquier cosa crítica para la seguridad.
Su posición en la oferta
El encuadre honesto: Haiku 4.5 compite con Gemini 2.5 Flash, Gemini 2.5 Flash-Lite y las variantes más pequeñas de GPT-5 de OpenAI para las mismas cargas de trabajo. La elección entre ellos rara vez la decide un único benchmark.
Donde Haiku 4.5 gana:
- Fiabilidad en salida estructurada. Dale un esquema JSON y lo respeta. Los modelos Claude pequeños anteriores ocasionalmente alucinaban campos extra. Esa regresión parece corregida.
- Postura ante rechazos. Rechaza prompts límite igual que Opus, con el mismo razonamiento visible. Si su aplicación requiere un comportamiento de guardia consistente entre tiers de modelos, Haiku 4.5 encaja bien.
- Prosa administrativa en lenguas europeas. Alemán, francés, neerlandés, polaco — la línea Opus siempre ha sido fuerte aquí y Haiku hereda ese linaje. No es perfecto con el idioma legal, pero no anglifica la terminología como hacen algunos modelos pequeños de la competencia.
Donde pierde:
- Precio por token bruto. Algunos modelos pequeños de la competencia tienen un precio inferior. Para trabajos por lotes puramente orientados al coste a escala masiva, haga los cálculos con las cifras del panel lateral.
- Latencia en prompts muy largos. Pasados aproximadamente 150k tokens de entrada, el tiempo hasta el primer token aumenta. Gemini 2.5 Flash a veces transmite más rápido en el extremo largo de su ventana.
Para una comparación directa, /benchmarks/leaderboard mantiene la imagen actualizada. Las puntuaciones por categoría se desglosan en /benchmarks/intelligence.
Cuándo no es la herramienta adecuada
Cualquier tarea que requiera razonamiento profundo de múltiples pasos. Haiku 4.5 no es malo en cadenas de pensamiento, pero no tiene la misma paciencia para la auto-verificación que muestra Opus. Si la tarea implica verificar sus propios pasos intermedios, escale.
Generación de código en bases de código desconocidas. Escribe código razonable, pero un modelo frontier —incluido el propio Sonnet u Opus de Anthropic— produce una salida más idiomática cuando el framework evoluciona rápidamente. Para orientación sobre uso en IDE, consulte /usecases/code.
Voz y audio. Haiku 4.5 no tiene entrada de audio. Ponga un modelo de transcripción por delante si necesita conversación hablada. El árbol de decisión está en /usecases/voice.
Cualquier tarea crítica para la seguridad sin revisión. El modelo está bien alineado y rechaza de forma reflexiva, pero en este tier no debería ejecutar asesoramiento médico, legal o financiero sin supervisión. Eso aplica a todos los modelos pequeños, no solo a este.
Notas de despliegue
API REST. El streaming funciona. Los prompts de sistema se comportan de manera predecible. Las llamadas de uso de herramientas son suficientemente fiables como para construir bucles de agentes sin necesidad de parsers defensivos en cada respuesta.
La disponibilidad regional sigue el mismo patrón de Anthropic que el resto de la línea Claude: la inferencia corre en infraestructura de AWS y Google Cloud, y la API pública no permite fijar una región. Los equipos de la UE con restricciones estrictas de residencia tendrán que negociar un contrato enterprise o buscar una alternativa alojada en OVH o Scaleway. La encuesta en /usecases/local cubre las opciones de peso abierto cuando la residencia no es negociable.
Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.
Cuándo elegirlo
Use Claude Haiku 4.5 cuando:
- La latencia importa tanto como la calidad.
- Quiere el mismo comportamiento de rechazo y fiabilidad de salida estructurada que Opus, a una fracción del coste y el tiempo.
- Hace trabajo de RAG de alto volumen, clasificación o conversación donde la profundidad de razonamiento no es el cuello de botella.
- Necesita entrada de visión en documentos que un humano podría leer a resolución completa.
No lo use cuando:
- La tarea requiere razonamiento sostenido de múltiples pasos. Suba a Sonnet u Opus.
- Necesita audio de entrada o salida. Familia equivocada por completo.
- El coste domina cualquier otra consideración y puede tolerar menor fiabilidad en salida estructurada — algunos competidores tienen precios más bajos.
- Necesita despliegue on-premise. Anthropic no distribuye pesos.
El resumen: Haiku 4.5 es un modelo pequeño que se toma en serio. Es el valor predeterminado correcto para cualquier cosa que no requiera específicamente Sonnet u Opus, y el coste de equivocarse en esa elección es más bajo que antes.
Pruébelo contra las alternativas en /live-test. Mismo prompt, múltiples modelos, uno junto al otro.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
