Aller au contenu
Tier B — Production
Fonctionne en :USCréé en :United States
Anthropic

Claude Sonnet 4.5

Tier B — Production · 200K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Claude Sonnet 4.5 est un grand modèle de langage développé par Anthropic, publié dans le cadre de la famille de modèles Claude 3.5. Il constitue une amélioration itérative par rapport aux versions précédentes de Sonnet, maintenant l'équilibre entre performance et efficacité qui caractérise le niveau Sonnet dans la gamme de produits d'Anthropic. Le modèle est conçu pour des tâches de génération de texte à usage général, notamment l'analyse, la création de contenu, l'assistance au codage et les interactions conversationnelles. Le modèle dispose d'une fenêtre de contexte de 200,000 tokens, lui permettant de traiter et de maintenir la cohérence sur d'importants volumes de texte dans une seule conversation ou session d'analyse documentaire. Claude Sonnet 4.5 prend en charge les entrées et sorties textuelles standard, sans capacités multimodales natives pour le traitement d'images ou d'audio. Son architecture privilégie le suivi des instructions, l'exactitude factuelle et le maintien de limites appropriées dans les réponses. Au sein de la hiérarchie des modèles d'Anthropic, Sonnet occupe la position intermédiaire entre les modèles Haiku, plus rapides et plus économiques, et le niveau Opus, plus performant mais plus gourmand en ressources. Ce positionnement rend Claude Sonnet 4.5 adapté aux applications nécessitant des performances fiables sur des tâches variées sans la charge de calcul des modèles phares. Le modèle est accessible via l'API d'Anthropic et certaines plateformes partenaires, couvrant des cas d'usage allant de l'automatisation du service client à l'assistance au développement logiciel et à l'analyse documentaire, dans des contextes d'entreprise comme pour les développeurs individuels.

Claude Sonnet 4.5 affine l équilibre performance-efficacité de la série Sonnet, avec 200 000 tokens pour les applications professionnelles.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
147216741886208822805-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
100
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Claude Sonnet 4.5
$3.00 par 1M de tokens d'entrée
$15.00 par 1M de tokens de sortie
≈ $0.0048 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$3.00
par 1M de tokens de sortie$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)135 / avg 162
134277

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Performance équilibrée au quotidienContexte de 200 000 tokensSuivi précis des instructionsAssistance codage polyvalenteCapabilities multilinguesFiable sur tâches répétitives

Faiblesses

Raisonnement moins profond qu OpusPas de traitement multimodalMoins rapide que Haiku
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Section 07

Questions fréquentes

Sonnet 4.5 apporte des améliorations itératives en raisonnement, précision et suivi des instructions tout en maintenant le positionnement intermédiaire de la gamme.

Une évolution solide pour les développeurs recherchant fiabilité et précision dans leur stack IA.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 76 runs
74 correct2 partial0 wrong97% accuracy
2026-06-14

Major capability expansion with tools, vision, and reasoning added

Claude Sonnet 4.5 has undergone a significant transformation with the addition of seven new capabilities: tools, vision, JSON mode, PDF input, reasoning, JSON schema, and prompt caching. This represents a fundamental expansion of the model's functionality beyond its previous text-only interface. The addition of vision capabilities allows the model to process images, while tools and JSON schema support enable structured interactions for application development. PDF input expands document handling, and the reasoning capability suggests enhanced problem-solving approaches. Prompt caching can improve efficiency for repeated interactions. These changes position Claude Sonnet 4.5 as a more versatile model suitable for multimodal applications and complex workflows. Users who previously relied on this model for text-only tasks will find it now supports a much broader range of use cases, from visual analysis to structured data extraction and tool-augmented reasoning. The scale of these additions indicates a major version update rather than incremental improvements, fundamentally changing what developers and users can accomplish with this model.

Quality

Latency p50

Test runs

0

Tools capability added Vision support enabled JSON schema support added PDF input now supported
Section 10

Profil complet du modèle

Claude Sonnet 4.5 — illustration 1
Claude Sonnet 4.5 : le niveau intermédiaire de production qui a fait ses preuves

Claude Sonnet 4.5 (claude-sonnet-4-5-20250929) est l'instantané Sonnet de fin septembre 2025. Deux cent mille tokens de contexte. Entrée texte-plus-vision. Le modèle intermédiaire sur lequel la plus grande cohorte de déploiements Claude en production a fini par tourner.

Le cadrage qui correspond le mieux à cet instantané : Sonnet 4.5 est celui vers lequel les équipes se tournent quand elles ont regardé Opus et décidé que la qualité de raisonnement dépasse ce dont elles ont réellement besoin, et regardé Haiku en décidant que la profondeur n'est pas suffisante. Il se positionne au milieu intentionnellement, et il le fait bien.

Pourquoi cet instantané a séduit

Plusieurs éléments se sont mis en place simultanément dans le 4.5 pour en faire la cible d'upgrade par défaut des équipes sous Sonnet 4.0 :

  • Meilleure adhérence aux schémas JSON. Les instantanés Sonnet précédents dérivaient parfois sur les noms de champs avec des schémas imbriqués complexes. Le 4.5 respecte le contrat de façon fiable.
  • Posture de refus plus précise. Le modèle décline les prompts limites avec le même style de raisonnement qu'Opus, plutôt que la posture légèrement différente que montraient les instantanés Sonnet précédents.
  • Gestion du prompt système plus prévisible. Quand le prompt système et le prompt utilisateur sont en conflit, le 4.5 pondère les deux plutôt que de silencieusement en privilégier un.
  • Meilleure cohérence sur les longues sorties. Les réponses multi-paragraphes restent cohérentes sans la répétition dans laquelle dérivaient parfois les instantanés Sonnet précédents.

Aucun de ces points n'est un titre de benchmark. Tous comptent quand vous faites tourner une boucle d'agent ou un pipeline d'extraction structurée et que vous comptez les échecs par dix mille requêtes.

Ce qu'une fenêtre de 200 000 tokens vous apporte

Deux cent mille tokens suffisent pour une base de code conséquente, un long rapport trimestriel, ou un dossier de due diligence multi-documents. Sonnet 4.5 maintient son attention raisonnablement sur la plupart du tampon, avec la réserve habituelle que la qualité de récupération d'informations se dégrade quelque peu au milieu de très longues entrées.

Si votre charge de travail dépasse régulièrement 150 000 tokens d'entrée, deux options pratiques s'offrent à vous. Rester sur le 4.5 et utiliser des techniques de prompt engineering pour garder le modèle ancré — répéter la question en fin de contexte, structurer l'entrée avec des en-têtes de section clairs. Ou passer à Sonnet 4.6, qui offre une fenêtre d'un million de tokens avec une attention en profondeur nettement meilleure. Le tableau de latence en temps réel est sur /benchmarks/speed.

Une vision qui fait son travail

Les capacités vision du 4.5 fonctionnent pour les tâches standard de lecture de documents. Captures d'écran, PDF scannés rendus en images, tableaux de bord, diagrammes. L'extraction de tableaux est propre. Les graphiques avec des tailles d'étiquettes raisonnables sont décrits avec précision.

L'écriture manuscrite est le point faible. Tout comme les figures scientifiques denses aux petites étiquettes. Tout ce qu'un humain devrait zoomer pour lire la source bénéficie d'une étape de vérification humaine dans la boucle.

La pile vision est partagée sur la ligne 4.x. Si vous évaluez Sonnet 4.5 face à Opus 4.5 ou Haiku 4.5 spécifiquement pour la vision, attendez-vous à un comportement similaire avec le gradient de qualité habituel par niveau.

Positionnement face à la concurrence

Le tableau concurrentiel honnête pour Sonnet 4.5 à mi-2026 :

Face aux instantanés Anthropic Sonnet plus récents. Sonnet 4.6 est la cible d'upgrade naturelle. Il embarque la même surface d'entrée, plus une fenêtre de contexte d'un million de tokens et des affinements progressifs des appels d'outils. Pour les charges de travail qui tiennent dans 200 000 tokens, le choix est davantage opérationnel que lié aux capacités.

Face à GPT-5 niveau intermédiaire et Gemini 2.5 Pro. Sonnet 4.5 échange des victoires par catégorie. Il gagne sur la cohérence des refus, la prose administrative en langues européennes, la fiabilité des sorties structurées. Il perd sur la vitesse brute pour les échanges conversationnels courts et sur l'entrée multimodale native au-delà des images.

Pour une comparaison directe, le /benchmarks/leaderboard maintient le tableau à jour et les scores par catégorie sont détaillés sur /benchmarks/intelligence.

Quand ce n'est pas le bon outil

Classification à volume élevé à bas coût. Le compute de niveau intermédiaire n'est pas adapté à l'envoi de millions de prompts courts. Claude Haiku 4.5 ou Gemini 2.5 Flash fait ce travail à un niveau de coût différent sans perte de qualité significative sur des tâches simples.

Voix en temps réel. Sonnet 4.5 n'accepte pas d'entrée audio. Le guide de pipeline vocal sur /usecases/voice couvre l'architecture adaptée.

Les charges de travail qui nécessitent réellement un raisonnement de niveau supérieur. Si votre tâche implique un raisonnement formel multi-étapes, une refactorisation de code complexe sur de grandes bases de code, ou une synthèse soigneuse sur de nombreux documents, le niveau Opus est le bon choix. Sonnet 4.5 est bon ; Opus est meilleur pour ces cas spécifiques.

Génération de code pour des frameworks évoluant rapidement où vous souhaitez une sortie idiomatique. Le modèle est compétent mais conservateur. Pour un travail adapté à l'IDE, l'étude sur /usecases/code compare les options.

Déploiement auto-hébergé ou fine-tuning. Anthropic ne livre pas de poids et ne propose pas de fine-tuning supervisé sur le niveau Sonnet. Les options open-weight pour ces contraintes sont recensées sur /usecases/local.

Notes de déploiement

API Anthropic standard. REST. Streaming. Les prompts système se comportent de façon prévisible. La qualité des appels d'outils est suffisante pour construire des agents en production sans parsing défensif.

La situation en matière de résidence des données est la même que pour le reste de la ligne Claude. L'inférence tourne sur AWS et Google Cloud, et l'API publique n'expose pas de paramètre de sélection de région. La résidence UE exige une négociation de contrat Enterprise, pas un réglage. Pour les contraintes de résidence strictes, consultez les alternatives hébergées sur OVH.

Les logs sont conservés trente jours par défaut pour la surveillance des abus. Les entrées ne sont pas utilisées pour l'entraînement sans opt-in explicite. La rétention zéro est une clause de contrat Enterprise.

Quand l'adopter

Choisissez Claude Sonnet 4.5 quand :

  • Vous voulez l'instantané Sonnet le plus durci en production plutôt que le dernier en date.
  • La charge de travail tient dans 200 000 tokens de contexte.
  • La fiabilité des sorties structurées et la cohérence des refus comptent pour votre architecture.
  • Vous traitez des textes administratifs ou juridiques en langues européennes où la fidélité terminologique est importante.

Choisissez autre chose quand :

  • Vous avez régulièrement besoin de plus de 200 000 tokens de contexte. Passez à Sonnet 4.6.
  • Vous avez besoin d'un raisonnement de niveau frontier. Montez vers Opus.
  • Vous avez besoin d'un coût inférieur au centime par appel. Descendez vers Haiku.
  • L'audio, la voix ou la vidéo font partie de la charge de travail.

En résumé. Sonnet 4.5 est le choix intermédiaire sûr pour la production. Les instantanés plus récents sont plus performants en pointe, mais le 4.5 est celui vers lequel la plupart des équipes se tourneront — et elles auront raison de le faire.

Testez-le face aux alternatives actuelles sur vos propres prompts à /live-test. Même prompt, plusieurs modèles, côte à côte.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Claude Sonnet 4.5 — illustration 2
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
1483 ms
Latence P95
1487 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026