Aller au contenu
Tier A — Frontier
Fonctionne en :USCréé en :United States
Anthropic

Claude Haiku 4.5

Tier A — Frontier · 200K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Claude Haiku 4.5 est un modèle de langage développé par Anthropic, positionné comme une option rapide et efficace au sein de la famille de modèles Claude. Il est conçu pour gérer des tâches standard de génération de texte avec une latence réduite par rapport aux modèles plus volumineux de la gamme, ce qui le rend adapté aux applications où la vitesse de réponse est prioritaire. Le modèle prend en charge une fenêtre de contexte de 200 000 tokens, lui permettant de traiter et de référencer des quantités substantielles de texte en une seule interaction. Ce modèle est construit pour servir des cas d'usage nécessitant une inférence rapide sans la surcharge computationnelle des modèles plus performants d'Anthropic comme Claude Sonnet ou Claude Opus. Les applications typiques incluent l'automatisation du support client, la modération de contenu, l'extraction de données et les implémentations de chatbot en temps réel où un délai de traitement rapide est essentiel. Bien qu'il conserve les capacités fondamentales en matière de raisonnement, de suivi d'instructions et de compréhension du langage naturel, il représente un compromis entre performance et rapidité au sein de la hiérarchie des modèles d'Anthropic. Claude Haiku 4.5 s'inscrit dans la structure de modèles à niveaux d'Anthropic en tant qu'option axée sur l'efficacité, se situant en dessous de Claude Sonnet et Claude Opus en termes de profondeur de raisonnement et de gestion de la complexité des tâches. Il partage la même fenêtre de contexte étendue que les autres modèles de la génération Claude 3.5, permettant des capacités de traitement de documents cohérentes à travers la gamme. Le modèle est accessible via l'API d'Anthropic et est conçu pour les développeurs qui ont besoin d'une génération de texte fiable avec une latence minimale dans des environnements de production.

Claude Haiku 4.5 délivre des réponses ultra-rapides avec 200 000 tokens de contexte, idéal pour les applications temps réel.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
152115021483145414305-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
99
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Claude Haiku 4.5
$1.00 par 1M de tokens d'entrée
$5.00 par 1M de tokens de sortie
≈ $0.0016 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$1.00
par 1M de tokens de sortie$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

▲ +25% since first

$5.00

output / 1M

▲ +25% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)338 / avg 298
130284

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Faible latence de réponseFenêtre de 200 000 tokensIdéal pour chatbots temps réelExtraction de données efficaceCoût par requête réduitAdapté au haut volume de requêtes

Faiblesses

Raisonnement moins profond qu OpusMoins performant sur tâches complexesLimites en analyse spécialisée
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Section 07

Questions fréquentes

Haiku est la variante optimisée pour la vitesse dans la gamme Anthropic, avec une architecture allégée qui privilégie la rapidité sur la profondeur de raisonnement.

Quand la vitesse d exécution est critique, Haiku 4.5 est le modèle Anthropic à privilégier.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=21

30 derniers jours

100.0%

n=21

Temps de réponse médian

1,912ms

n=21

Basé sur 109 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

21

Réponses OK (30d)

21

Total des appels (7d)

21

Réponses OK (7d)

21

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-592/100 · 76 runs
66 correct8 partial2 wrong87% accuracy
2026-06-14

Claude Haiku 4.5: Major Quality Leap with Increased Latency Trade-off

Claude Haiku 4.5 demonstrates a substantial quality improvement in the current window, jumping 6.7 points to reach an exceptional 99.6 overall score. The model has achieved perfect 100-point scores in both coding and reasoning categories, representing significant gains over the previous window's coding performance and marking the emergence of reasoning as a tracked capability. Multilingual performance remains strong at 99, down just one point from the previous perfect score. However, this quality enhancement comes with a notable performance cost: median latency has increased by 26 percent, rising from 2998ms to 3763ms. This suggests Anthropic may have prioritized capability improvements over speed optimization in this iteration. The shift in tracked categories is noteworthy, with creative and factual assessments absent from current results while reasoning now appears as a measured dimension. Users can expect substantially improved code generation and logical reasoning capabilities, but should account for longer response times in latency-sensitive applications. The near-perfect overall score positions this model among the highest-performing options available, though the speed regression may impact real-time use cases.

Quality

99.6

Latency p50

3,763 ms

Test runs

5

Quality improved 6.7 points Perfect coding and reasoning scores Latency increased 26% Response time now 3763ms
Section 10

Profil complet du modèle

Claude Haiku 4.5 — illustration 1
Claude Haiku 4.5 : le petit modèle d'Anthropic pris au sérieux

Claude Haiku 4.5 (claude-haiku-4-5-20251001) est le modèle compact de la gamme Anthropic actuelle. Deux cent mille tokens de contexte. Entrée texte-plus-vision. Un profil de latence qui permet de le mettre face à un utilisateur sans écran d'excuses pour les réponses lentes.

Anthropic corrige discrètement ce qui faisait autrefois de Haiku le choix de "dégradation évidente". L'ancien niveau Haiku pouvait sembler fragile dès qu'un prompt sortait du territoire conversationnel. Le 4.5 tient bien mieux sur les travaux intermédiaires délicats — extraire des champs d'une facture désordonnée, classifier un ticket de support avec deux intentions chevauchantes, résumer un long fil sans perdre la vraie question du client. Ce n'est pas Opus. Il ne prétend pas l'être.

Ce que la vitesse vous permet de faire

Le temps jusqu'au premier token est le chiffre qui compte ici. Haiku 4.5 streame presque instantanément sur les prompts courts et reste réactif à mesure que l'entrée grandit vers la fin de sa fenêtre de contexte. Les chiffres en temps réel sont sur /benchmarks/speed — ils varient d'une semaine à l'autre au fil des optimisations d'infrastructure d'Anthropic, mais Haiku a constamment figuré parmi les modèles texte-plus-vision hébergés sur API les plus rapides que nous mesurons.

Ce profil de latence change ce que vous pouvez construire. Les agents conversationnels en temps réel deviennent viables sans prompt engineering agressif pour maintenir des réponses courtes. Les réponses RAG en streaming semblent vives même quand la charge de récupération dépasse 50 000 tokens. Les travaux de classification par lots qui prendraient une demi-heure sur Opus s'exécutent en minutes. Le coût d'un petit modèle de niveau A ne se résume rarement qu'au seul coût par token — c'est aussi les simplifications architecturales qu'il vous permet de déployer.

Une vision qui vaut son coût

Haiku 4.5 hérite de la pile vision du reste de la famille 4.x. Vous pouvez lui confier des captures d'écran, des documents scannés, des photos de formulaires, des diagrammes. Pour les travaux à saveur OCR — lire des tableaux de bord, extraire des lignes de reçus, transcrire des pages tapées — il fait le travail suffisamment bien pour rarement avoir besoin d'escalader vers un modèle plus grand.

L'écriture manuscrite reste le point faible. Tout comme les graphiques aux petites étiquettes d'axe et les figures scientifiques denses. Si le document semble difficile à lire pour un humain en taille vignette, Haiku aura aussi du mal. Associez-le à une étape de vérification humaine pour tout ce qui est critique en matière de sécurité.

Positionnement dans la gamme

En toute honnêteté : Haiku 4.5 est en concurrence avec Gemini 2.5 Flash, Gemini 2.5 Flash-Lite et les variants GPT-5 plus petits d'OpenAI pour les mêmes charges de travail. Choisir entre eux ne se décide rarement sur un seul benchmark.

Là où Haiku 4.5 l'emporte :

  • Fiabilité des sorties structurées. Donnez-lui un schéma JSON et il s'y tient. Les petits modèles Claude précédents hallucinaient parfois des champs supplémentaires. Cette régression semble corrigée.
  • Posture de refus. Il décline les prompts limites de la même façon qu'Opus, avec le même raisonnement visible. Si votre application bénéficie d'un comportement de garde-fou cohérent entre les niveaux de modèles, Haiku 4.5 s'intègre bien.
  • Prose administrative en langues européennes. Allemand, français, néerlandais, polonais — la ligne Opus a toujours été solide ici et Haiku en hérite. Il n'est pas irréprochable sur le jargon juridique, mais il n'anglicise pas la terminologie comme certains petits modèles concurrents.

Là où il perd :

  • Prix brut par token. Certains petits modèles concurrents affichent un tarif plus bas. Pour des travaux par lots purement orientés coût à grande échelle, faites vos propres calculs avec les chiffres de la barre latérale.
  • Latence sur les prompts très longs. Au-delà d'environ 150 000 tokens d'entrée, le temps jusqu'au premier token augmente. Gemini 2.5 Flash streame parfois plus vite sur la partie longue de sa fenêtre.

Pour une comparaison directe, le /benchmarks/leaderboard maintient le tableau à jour. Les scores par catégorie sont détaillés sur /benchmarks/intelligence.

Quand ce n'est pas le bon outil

Tout ce qui nécessite un raisonnement multi-étapes profond. Haiku 4.5 n'est pas mauvais dans les chaînes de pensée, mais il n'a pas la même patience pour l'auto-vérification qu'Opus. Si votre tâche implique de vérifier ses propres étapes intermédiaires, escaladez.

Génération de code sur des bases de code inconnues. Il écrit du code raisonnable, mais un modèle frontier — y compris les niveaux Sonnet ou Opus d'Anthropic — produit une sortie plus idiomatique quand le framework évolue rapidement. Pour des conseils adaptés à l'IDE, consultez /usecases/code.

Voix et audio. Haiku 4.5 n'accepte pas d'entrée audio. Mettez un modèle de transcription en amont si vous avez besoin de conversation vocale. L'arbre de décision est sur /usecases/voice.

Tout ce qui est critique en matière de sécurité sans revue. Le modèle est bien aligné et refuse de façon réfléchie, mais à ce niveau vous ne devriez pas lui faire traiter des conseils médicaux, juridiques ou financiers sans supervision. Cela vaut pour chaque petit modèle, pas seulement celui-ci.

Notes de déploiement

API REST. Le streaming fonctionne. Les prompts système se comportent de façon prévisible. Les appels d'outils sont suffisamment fiables pour construire des boucles d'agent dessus sans parsers défensifs autour de chaque réponse.

La disponibilité régionale suit le même schéma Anthropic que le reste de la gamme Claude — l'inférence tourne sur AWS et Google Cloud, et l'API publique ne vous permet pas d'épingler une région. Les équipes UE soumises à des contraintes de résidence strictes devront négocier un contrat Enterprise ou se tourner vers une alternative hébergée sur OVH ou Scaleway. L'étude /usecases/local couvre les options open-weight quand la résidence est non négociable.

Les logs sont conservés trente jours par défaut pour la surveillance des abus. Les entrées ne sont pas utilisées pour l'entraînement sans opt-in explicite. La rétention zéro est une négociation contractuelle, pas un réglage dans les paramètres.

Quand l'adopter

Choisissez Claude Haiku 4.5 quand :

  • La latence compte autant que la qualité.
  • Vous souhaitez le même comportement de refus et la même fiabilité des sorties structurées qu'Opus, à une fraction du coût et du temps.
  • Vous faites du RAG à volume élevé, de la classification, ou des travaux conversationnels où la profondeur de raisonnement n'est pas le goulet d'étranglement.
  • Vous avez besoin d'une entrée vision sur des documents qu'un humain pourrait lire en pleine résolution.

Passez votre chemin quand :

  • La tâche nécessite un raisonnement multi-étapes soutenu. Montez vers Sonnet ou Opus.
  • Vous avez besoin d'entrée ou sortie audio. Mauvaise famille.
  • Le coût domine toute autre considération et vous pouvez tolérer une fiabilité des sorties structurées plus faible — certains concurrents affichent un tarif plus bas.
  • Vous avez besoin d'un déploiement on-premise. Anthropic ne livre pas de poids.

En résumé : Haiku 4.5 est un petit modèle qui se prend au sérieux. C'est le bon choix par défaut pour tout ce qui ne nécessite pas spécifiquement Sonnet ou Opus, et le coût d'une mauvaise évaluation est moins élevé qu'avant.

Testez-le face aux alternatives à /live-test. Même prompt, plusieurs modèles, côte à côte.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Claude Haiku 4.5 — illustration 2
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
591 ms
Latence P95
731 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026