Aller au contenu
Tier A — Frontier
Fonctionne en :USCréé en :United States
Anthropic

Claude Sonnet 4.6

Tier A — Frontier · 1M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Claude Sonnet 4.6 est un grand modèle de langage développé par Anthropic, publié dans le cadre de la génération de modèles Claude 3.5. Il représente une amélioration itérative par rapport à Claude 3.5 Sonnet, offrant des performances accrues en matière de raisonnement, de programmation et de génération de texte, tout en conservant l'approche équilibrée qui caractérise le niveau Sonnet dans la gamme de modèles d'Anthropic. Le modèle dispose d'une fenêtre de contexte de 200 000 tokens et prend en charge les capacités standard de génération de texte, notamment les conversations multi-tours, la création de contenu, l'analyse et l'assistance au codage. Claude Sonnet 4.6 est conçu comme un modèle polyvalent adapté à un large éventail d'applications, du support client et de la génération de contenu à la documentation technique et à l'analyse de données. Il traite à la fois les entrées et les sorties textuelles, en se concentrant sur la production de réponses cohérentes et contextuellement appropriées dans des domaines variés. Au sein de la gamme d'Anthropic, Claude Sonnet 4.6 occupe le niveau intermédiaire, entre les modèles Haiku, plus rapides et plus efficaces, et les modèles Opus, plus performants. Ce positionnement le rend adapté aux applications nécessitant un équilibre entre qualité de performance et efficacité computationnelle. Le modèle intègre l'approche d'entraînement constitutional AI d'Anthropic, qui met l'accent sur l'utilité, l'innocuité et l'honnêteté des réponses. Il est couramment déployé dans des environnements de production exigeant une génération de langage fiable et de haute qualité, sans les ressources requises par les modèles de niveau supérieur.

Claude Sonnet 4.6 allie les améliorations de la génération Claude 3.5 à une fenêtre de contexte étendue pour une polyvalence maximale.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
1522966578085941140805-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
99
Multilingue
99
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Claude Sonnet 4.6
$3.00 par 1M de tokens d'entrée
$15.00 par 1M de tokens de sortie
≈ $0.0048 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$3.00
par 1M de tokens de sortie$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)188 / avg 178
130227

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Polyvalence sur tâches généralesFenêtre de contexte étendueCodage et débogage efficacesGénération de contenu cohérenteFiable en déploiement productionAnalyse de données préciseCapacités multilingues étendues

Faiblesses

Moins puissant qu Opus en raisonnementPas de capacités visuelles nativesMoins rapide que les variantes Haiku
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Section 07

Questions fréquentes

Sonnet 4.6 est le modèle intermédiaire de la famille Claude 3.5, plus capable que Haiku et plus accessible qu Opus pour les tâches générales.

Sonnet 4.6 est le modèle de référence pour les équipes de développement cherchant performance et fiabilité au quotidien.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=24

30 derniers jours

100.0%

n=24

Temps de réponse médian

5,590ms

n=24

Basé sur 92 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

24

Réponses OK (30d)

24

Total des appels (7d)

24

Réponses OK (7d)

24

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 76 runs
73 correct3 partial0 wrong96% accuracy
2026-06-14

Claude Sonnet 4.6 adds multimodal capabilities with comparable performance

Claude Sonnet 4.6 introduces significant feature expansions while maintaining its core performance characteristics. The model now supports vision, PDF input, tool use, and structured output modes including JSON schema validation. A reasoning mode has been added for complex problem-solving tasks. These additions transform Claude Sonnet from a text-only model into a versatile multimodal system capable of processing documents and images alongside text. Performance across traditional benchmarks remains largely stable, with no significant degradation in text-based capabilities. The feature set now approaches parity with leading multimodal models, positioning Claude Sonnet as a comprehensive solution for diverse use cases. Users should note that while the capability surface has expanded dramatically, the core performance profile has not shown measurable improvement in traditional text tasks. The additions are primarily about breadth rather than depth, making this update most valuable for users requiring multimodal processing, structured outputs, or tool integration. Existing text-only workflows should continue performing as expected without disruption.

Quality

Latency p50

Test runs

0

Vision and PDF support added Tool use and reasoning enabled Structured JSON output modes Stable text performance maintained
Section 10

Profil complet du modèle

Claude Sonnet 4.6 — illustration 1
Claude Sonnet 4.6 : le niveau intermédiaire à un million de tokens, sans le prix de l'Opus

Claude Sonnet 4.6 (claude-sonnet-4-6) est l'instantané Sonnet qui a franchi le plafond des 200 000 tokens. Un million de tokens de fenêtre de contexte. Entrée texte-plus-vision. Le modèle intermédiaire qui, pour la première fois dans la famille Claude, rendait les longues entrées un choix raisonnable sans payer le prix du niveau Opus.

Le cadrage qui correspond le mieux : Sonnet 4.6 est le modèle vers lequel vous vous tournez quand vous souhaitez la fiabilité et la posture de refus du style Sonnet, mais que vous avez une charge de travail qui ne tient pas dans 200 000 tokens. C'est une bande d'usages plus étroite que la ligne Sonnet générale, mais c'est une bande qui n'avait pas de bonne réponse avant cet instantané.

Ce qu'une fenêtre d'un million de tokens vous apporte concrètement

Un million de tokens, c'est assez pour un bilan trimestriel complet, un monorepo de taille intermédiaire, ou plusieurs mois d'un fil de conversation. L'argument marketing est fondé. La question pratique est la même que pour tout modèle à long contexte : la qualité d'attention tient-elle sur l'ensemble du tampon, ou le modèle perd-il de vue les faits placés en début une fois la fin remplie ?

Sonnet 4.6 maintient son attention bien au-delà des 200 000 tokens — là où le reste de la ligne Sonnet se heurtait à un mur. Au-delà d'environ 600 000 tokens, la latence s'allonge visiblement et le débit en streaming diminue. Les chiffres précis évoluent à chaque cycle ; le tableau de bord live est sur /benchmarks/speed.

Deux implications pratiques. Premièrement, la longue fenêtre est réellement utilisable pour des tâches comme la revue de documents croisés, l'audit complet d'un dépôt, et la gestion d'état conversationnel sur de longs fils — pas seulement un chiffre de présentation. Deuxièmement, le prompt caching reste pertinent pour les requêtes répétées sur un même large corpus. Recharger 800 000 tokens de contexte à chaque appel coûte cher en temps réel, même quand l'appel API réussit sans accroc.

Comparaison avec Opus 4.7 sur le long contexte

Sonnet 4.6 et Opus 4.7 offrent tous deux des fenêtres d'un million de tokens. La différence est celle qu'on attendrait :

  • Opus 4.7 est plus prudent et raisonne à travers de longues chaînes d'étapes internes avant de répondre.
  • Sonnet 4.6 est plus rapide sur la même entrée et produit des réponses proches de la première interprétation crédible plutôt que d'explorer des alternatives.
  • Pour la récupération pure — "trouvez ce fait dans ce document de 800 000 tokens" — les deux sont proches. Pour la synthèse sur de nombreux faits dispersés, Opus l'emporte généralement.
  • Pour les charges de travail long-contexte sensibles au coût où vous n'avez pas spécifiquement besoin du raisonnement de niveau supérieur, Sonnet 4.6 est le bon choix.

Testez-les sur vos propres prompts. Les écarts sur les charges de travail réelles correspondent rarement aux écarts de benchmarks publics.

Une vision à la hauteur

Sonnet 4.6 conserve la pile vision de la ligne 4.x. Captures d'écran de documents, PDF scannés rendus en images, tableaux de bord, diagrammes. L'extraction de tableaux est propre. Les graphiques avec des tailles d'étiquettes raisonnables sont décrits avec précision.

Les mêmes points faibles que dans le reste de la famille Claude. L'écriture manuscrite est aléatoire. Les figures scientifiques denses aux petites étiquettes d'axe sont partiellement mal lues. Tout ce qu'un humain devrait zoomer bénéficie d'une étape de vérification.

Pour les charges de travail qui combinent entrée vision et fenêtre de contexte longue — par exemple, un PDF entier rendu en images de page accompagné de métadonnées structurées — Sonnet 4.6 est l'un des choix les plus capables du marché. Gemini 3 Pro Preview rivalise ici sur un pied d'égalité approximatif.

Positionnement face à la concurrence

Le tableau concurrentiel honnête pour Sonnet 4.6 :

Face à Opus 4.7. Sonnet 4.6 est plus rapide et moins coûteux à opérer, Opus 4.7 raisonne plus soigneusement sur les tâches complexes. Pour les charges de travail où le rôle du modèle est d'extraire des faits d'une longue entrée et de les résumer, Sonnet suffit généralement. Pour celles qui impliquent un raisonnement multi-étapes sur une longue entrée, Opus est le meilleur choix.

Face à Gemini 2.5 Pro et GPT-5 niveau intermédiaire. Sonnet 4.6 gagne sur la cohérence des refus et la prose administrative en langues européennes. Gemini gagne sur le multimodal natif au-delà des images. GPT-5 niveau intermédiaire gagne sur la vitesse brute pour les échanges conversationnels courts.

Le tableau par catégorie est sur /benchmarks/leaderboard et /benchmarks/intelligence.

Quand ce n'est pas le bon outil

Les charges de travail où 200 000 tokens suffisent. Sonnet 4.5 est moins coûteux à opérer et se comporte de façon similaire dans sa fenêtre. La capacité d'un million de tokens a un coût en latence et en complexité opérationnelle que vous ne devriez pas payer si vous n'en avez pas besoin.

Voix en temps réel. Pas d'entrée audio. Le guide de pipeline vocal sur /usecases/voice couvre l'architecture adaptée.

Classification à volume élevé à bas coût. Le compute de niveau intermédiaire sur des modèles à long contexte n'est pas adapté à l'envoi de millions de prompts courts. Claude Haiku 4.5 ou l'un des variants Gemini Flash plus petits fait ce travail à un niveau de coût différent.

Génération de code pour des frameworks évoluant rapidement. Style de sortie conservateur. Pour un travail adapté à l'IDE, l'étude sur /usecases/code couvre les alternatives.

Déploiement auto-hébergé ou fine-tuning. Anthropic ne livre pas de poids. L'étude open-weight sur /usecases/local est le bon point de départ quand ces contraintes s'appliquent.

Notes de déploiement

API Anthropic standard. REST. Streaming. Les prompts système se comportent de façon prévisible. Les appels d'outils sont suffisamment fiables pour construire des agents en production.

La résidence des données UE reste le point récurrent. L'inférence d'Anthropic tourne sur AWS et Google Cloud, et l'API publique n'expose pas de paramètre de sélection de région pour aucun modèle Claude. En standard, un chemin d'inférence exclusivement UE n'est pas garanti. Les contrats Enterprise peuvent négocier des clauses de résidence. Pour les contraintes strictes, les options open-weight recensées sur /usecases/local sont le bon point de départ.

Les logs sont conservés trente jours par défaut pour la surveillance des abus. Les entrées ne sont pas utilisées pour l'entraînement sans opt-in explicite. La rétention zéro est une négociation contractuelle, pas un réglage dans les paramètres.

Quand l'adopter

Choisissez Claude Sonnet 4.6 quand :

  • La charge de travail dépasse régulièrement 200 000 tokens d'entrée.
  • Vous souhaitez la vitesse et la posture de refus du style Sonnet plutôt que la profondeur de raisonnement du niveau Opus.
  • Vous faites de la revue de documents croisés, de l'audit complet de dépôt, ou d'autres tâches où la longue fenêtre vaut la peine.
  • Des textes administratifs ou juridiques en langues européennes font partie de l'entrée.

Choisissez autre chose quand :

  • La charge de travail tient confortablement dans 200 000 tokens. Utilisez Sonnet 4.5.
  • Vous avez besoin d'un raisonnement de niveau supérieur sur la longue entrée. Montez vers Opus 4.7.
  • Vous avez besoin d'un coût inférieur au centime par appel sur les prompts courts. Descendez vers Haiku.
  • L'audio, la voix ou la vidéo fait partie de la charge de travail.

En résumé. Sonnet 4.6 est la bonne réponse pour les charges de travail intermédiaires à long contexte. Ce n'est pas la bonne réponse pour tout, et c'est très bien. Pour sa bande spécifique, c'est l'un des modèles les plus solides du marché.

Testez-le sur votre propre prompt long-contexte à /live-test. La différence entre modèles est la plus claire quand l'entrée est assez grande pour les mettre à l'épreuve.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Claude Sonnet 4.6 — illustration 2Claude Sonnet 4.6 — illustration 3
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
1064 ms
Latence P95
1127 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026