Zum Inhalt
Tier A — Frontier
Läuft in:USErstellt in:United States
Anthropic

Claude Sonnet 4.6

Tier A — Frontier · 1M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Claude Sonnet 4.6 ist ein von Anthropic entwickeltes großes Sprachmodell, das als Teil der Claude 3.5-Modellgeneration veröffentlicht wurde. Es stellt eine iterative Weiterentwicklung von Claude 3.5 Sonnet dar und bietet verbesserte Leistung bei Reasoning, Coding und allgemeinen Textgenerierungsaufgaben, wobei der ausgewogene Ansatz beibehalten wird, der die Sonnet-Stufe in Anthropics Modellfamilie kennzeichnet. Das Modell verfügt über ein Kontextfenster von 200,000 Tokens und unterstützt Standard-Textgenerierungsfunktionen, darunter mehrstufige Konversationen, Inhaltserstellung, Analyse und Coding-Unterstützung. Claude Sonnet 4.6 ist als vielseitiges Allzweckmodell konzipiert, das für ein breites Anwendungsspektrum geeignet ist – vom Kundenservice und der Inhaltserstellung bis hin zur technischen Dokumentation und Datenanalyse. Es verarbeitet sowohl Text-Eingaben als auch -Ausgaben und konzentriert sich darauf, kohärente, kontextuell passende Antworten über diverse Domänen hinweg zu liefern. Innerhalb von Anthropics Modellpalette nimmt Claude Sonnet 4.6 die mittlere Stufe ein, positioniert zwischen den schnelleren, effizienteren Haiku-Modellen und den leistungsfähigeren Opus-Modellen. Diese Positionierung macht es geeignet für Anwendungen, die eine Balance zwischen Leistungsqualität und Recheneffizienz erfordern. Das Modell integriert Anthropics Constitutional-AI-Trainingsansatz, der Hilfsbereitschaft, Unbedenklichkeit und Ehrlichkeit in den Antworten betont. Es wird häufig in Produktionsumgebungen eingesetzt, in denen zuverlässige, hochwertige Sprachgenerierung erforderlich ist, ohne den Ressourcenbedarf von Flaggschiff-Modellen.

Claude Sonnet 4.6 mit 1-Million-Token-Kontext – Anthropics vielseitigstes Mittelklassemodell erreicht eine neue Dimension.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
1522966578085941140805-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
99
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Claude Sonnet 4.6
$3.00 pro 1M Input-Tokens
$15.00 pro 1M Output-Tokens
≈ $0.0048 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$3.00
pro 1M Output-Tokens$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)188 / avg 178
130227

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1-Million-Token-KontextfensterBalance zwischen Qualität und EffizienzCoding- und Analyse-SupportVielseitige AllzweckanwendbarkeitConstitutional-AI-AnsatzGroße Dokumentenmengen verarbeitbar

Schwächen

Weniger Reasoning-Tiefe als Opus-TierKein Audio oder Bild-InputGroße Kontextverarbeitung erhöht Latenz
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Abschnitt 07

Häufig gestellte Fragen

Es erlaubt die Verarbeitung sehr langer Dokumente, kompletter Codebasen oder ausgedehnter Gesprächsverläufe ohne Unterbrechung.

Das erweiterte Kontextfenster macht Sonnet 4.6 zur ersten Wahl, wenn große Dokumentenmassen und ausgewogene Leistung zusammenfallen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=24

Letzte 30 Tage

100.0%

n=24

Mediane Antwortzeit

5,590ms

n=24

Basierend auf 92 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

24

OK-Antworten (30d)

24

Gesamte Aufrufe (7d)

24

OK-Antworten (7d)

24

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 76 runs
73 correct3 partial0 wrong96% accuracy
2026-06-14

Claude Sonnet 4.6 adds multimodal capabilities with comparable performance

Claude Sonnet 4.6 introduces significant feature expansions while maintaining its core performance characteristics. The model now supports vision, PDF input, tool use, and structured output modes including JSON schema validation. A reasoning mode has been added for complex problem-solving tasks. These additions transform Claude Sonnet from a text-only model into a versatile multimodal system capable of processing documents and images alongside text. Performance across traditional benchmarks remains largely stable, with no significant degradation in text-based capabilities. The feature set now approaches parity with leading multimodal models, positioning Claude Sonnet as a comprehensive solution for diverse use cases. Users should note that while the capability surface has expanded dramatically, the core performance profile has not shown measurable improvement in traditional text tasks. The additions are primarily about breadth rather than depth, making this update most valuable for users requiring multimodal processing, structured outputs, or tool integration. Existing text-only workflows should continue performing as expected without disruption.

Quality

Latency p50

Test runs

0

Vision and PDF support added Tool use and reasoning enabled Structured JSON output modes Stable text performance maintained
Abschnitt 10

Vollständiges Modellprofil

Claude Sonnet 4.6 — illustration 1
Claude Sonnet 4.6: Million-Token-Mid-Tier ohne Opus-Preisschild

Claude Sonnet 4.6 (claude-sonnet-4-6) ist der Sonnet-Snapshot, der die 200k-Kontextgrenze durchbrochen hat. Eine Million Token Kontextfenster. Text- und Vision-Eingabe. Das Mid-Tier-Modell, das erstmals in der Claude-Familie sehr lange Eingaben zu einer vernünftigen Wahl machte, ohne für die Opus-Stufe zu zahlen.

Die treffendste Beschreibung: Sonnet 4.6 ist das Modell, nach dem man greift, wenn man Sonnet-typische Zuverlässigkeit und Ablehnungshaltung will, aber einen Workload hat, der nicht in 200k Token passt. Das ist eine engere Bandbreite von Anwendungsfällen als die allgemeine Sonnet-Linie — aber eine Bandbreite, für die es vor diesem Snapshot keine gute Antwort gab.

Was das Million-Token-Fenster wirklich bringt

Eine Million Token reichen für einen vollständigen Quartalsbericht, ein mittelgroßes Monorepo oder einen mehrmonatigen Chat-Thread. Die Marketing-Aussage ist real. Die praktische Frage ist dieselbe wie bei jedem Long-Context-Modell: hält die Aufmerksamkeitsqualität über den gesamten Puffer stand, oder verliert das Modell den Faden zu Anfang platzierten Fakten, wenn das Ende voll ist.

Sonnet 4.6 hält die Aufmerksamkeit gut über die 200k-Marke hinaus, an der der Rest der Sonnet-Linie stößt. Jenseits von etwa 600.000 Token dehnt sich die Latenz aus, und Streaming-Token-pro-Sekunde sinkt. Detaillierte Zahlen ändern sich jede Iteration; das aktuelle Bild finden Sie auf /benchmarks/speed.

Zwei praktische Konsequenzen: Erstens ist das lange Fenster für dokumentübergreifende Sorgfaltsprüfung, vollständige Repo-Code-Reviews und lange Konversations-Threads wirklich nutzbar — keine bloße Spezifikationszahl für eine Präsentation. Zweitens sollte man dennoch über Prompt-Caching für wiederholte Abfragen gegen dasselbe große Korpus nachdenken. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig, selbst wenn der API-Aufruf selbst sauber gelingt.

Vergleich mit Opus 4.7 bei langen Kontexten

Sowohl Sonnet 4.6 als auch Opus 4.7 bringen Million-Token-Fenster mit. Der Unterschied ist, was man erwarten würde:

  • Opus 4.7 ist sorgfältiger, vorsichtiger und reasont längere interne Schritte durch, bevor es antwortet.
  • Sonnet 4.6 ist bei gleicher Eingabe schneller und produziert Antworten näher an der ersten plausiblen Interpretation, ohne Alternativen durchzuarbeiten.
  • Bei reinem Retrieval — „Finde diese Tatsache in diesem 800k-Token-Dokument" — liegen die beiden nah beieinander. Bei der Synthese über viele verstreute Fakten gewinnt Opus in der Regel.
  • Für kostensensitive Long-Context-Workloads, bei denen Top-of-Stack-Reasoning nicht spezifisch benötigt wird, ist Sonnet 4.6 die richtige Wahl.

Testen Sie beide mit eigenen Prompts. Die Deltas bei realen Workloads entsprechen selten den öffentlichen Benchmark-Lücken.

Vision-Eingabe, die ihr Gewicht trägt

Sonnet 4.6 behält den Vision-Stack der 4.x-Linie. Dokument-Screenshots, gescannte PDFs als Seitenbilder, Dashboard-Aufnahmen, Diagramme. Tabellenextraktion ist sauber. Diagramme mit vernünftigen Beschriftungsgrößen werden korrekt beschrieben.

Dieselben Schwachstellen wie im Rest der Claude-Familie. Handschrift ist unbeständig. Dichte wissenschaftliche Abbildungen mit winzigen Achsenbeschriftungen werden teilweise falsch gelesen. Alles, bei dem ein Mensch hineinzoomen müsste, profitiert von einem Verifikationsschritt.

Für Workloads, die Vision-Eingabe mit dem langen Kontextfenster kombinieren — etwa ein gesamtes PDF als Seitenbilder zusammen mit strukturierten Metadaten — ist Sonnet 4.6 eine der fähigeren Optionen im Feld. Gemini 3 Pro Preview konkurriert hier auf etwa gleichem Niveau.

Einordnung in die Modelllandschaft

Das ehrliche Wettbewerbsbild für Sonnet 4.6:

Gegenüber Opus 4.7: Sonnet 4.6 ist schneller und günstiger zu betreiben, Opus 4.7 reasont bei komplexen Aufgaben sorgfältiger. Für Workloads, bei denen das Modell Fakten aus einer langen Eingabe ziehen und zusammenfassen soll, ist Sonnet meist ausreichend. Für Workloads mit mehrstufigem Reasoning über eine lange Eingabe ist Opus die bessere Wahl.

Gegenüber Gemini 2.5 Pro und GPT-5-Mid-Tier: Sonnet 4.6 gewinnt bei Ablehnungskonsistenz und europäischsprachiger Verwaltungsprosa. Gemini gewinnt bei nativer Multimodalität über Bilder hinaus. GPT-5-Mid-Tier gewinnt bei reiner Geschwindigkeit für kurze Gesprächsrunden.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und /benchmarks/intelligence.

Wann es das falsche Werkzeug ist

Workloads, bei denen 200k Token ausreichen. Sonnet 4.5 ist günstiger zu betreiben und verhält sich innerhalb seines Fensters ähnlich. Die Million-Token-Fähigkeit kostet etwas an Latenz und operationeller Komplexität, das man nicht zahlen sollte, wenn man es nicht braucht.

Echtzeit-Sprache. Keine Audio-Eingabe. Den Voice-Pipeline-Leitfaden finden Sie auf /usecases/voice.

Hochvolumige günstige Klassifizierung. Mid-Tier-Rechenleistung auf long-context-fähigen Modellen ist der falsche Aufwand für Millionen kurzer Prompts. Claude Haiku 4.5 oder eine der kleineren Gemini-Flash-Varianten erledigt das für eine andere Kostenstufe.

Code-Generierung unter sich schnell entwickelnden Frameworks. Konservativer Output-Stil. Für IDE-passendes Arbeiten deckt die Übersicht auf /usecases/code die Alternativen ab.

Self-Hosted-Deployment oder Fine-Tuning. Anthropic liefert keine Gewichte. Die Open-Weight-Übersicht auf /usecases/local ist der richtige Ausgangspunkt, wenn diese Anforderungen gelten.

Deployment-Hinweise

Standard-Anthropic-API. REST. Streaming. System-Prompts verhalten sich vorhersagbar. Tool-Use ist zuverlässig genug, um Produktionsagenten darauf aufzubauen.

EU-Datenresidenz bleibt der wiederkehrende Streitpunkt. Anthropics Inferenz läuft auf AWS und Google Cloud, und die öffentliche API bietet für kein Claude-Modell einen Regionsauswahlparameter. Ohne Enterprise-Vertrag ist ein ausschließlich EU-basierter Inferenzpfad nicht garantiert. Enterprise-Verträge können Residenzklauseln aushandeln. Bei strikten Residenzanforderungen sind die Open-Weight-Optionen auf /usecases/local der richtige Ausgangspunkt.

Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.

Wann Sie es einsetzen sollten

Greifen Sie zu Claude Sonnet 4.6, wenn:

  • Der Workload regelmäßig 200k Token Eingabe überschreitet.
  • Sie Sonnet-typische Geschwindigkeit und Ablehnungshaltung wollen, nicht Opus-Tier-Reasoning-Tiefe.
  • Sie dokumentübergreifende Sorgfaltsprüfung, vollständige Repo-Code-Reviews oder andere Aufgaben durchführen, bei denen das lange Fenster sich bezahlt macht.
  • Europäischsprachige Verwaltungs- oder Rechtstexte Teil der Eingabe sind.

Wählen Sie etwas anderes, wenn:

  • Der Workload komfortabel in 200k Token passt. Verwenden Sie Sonnet 4.5.
  • Sie Top-of-Stack-Reasoning über die lange Eingabe brauchen. Wechseln Sie zu Opus 4.7.
  • Sie Sub-Cent-Kosten pro Aufruf bei kurzen Prompts benötigen. Wechseln Sie nach unten zu Haiku.
  • Audio, Sprache oder Video Teil des Workloads ist.

Zusammenfassung: Sonnet 4.6 ist die richtige Antwort für Long-Context-Mid-Tier-Workloads. Es ist nicht die richtige Antwort für alles — und das ist in Ordnung. Für seine spezifische Bandbreite gehört es zu den stärksten Modellen auf dem Markt.

Testen Sie es mit einem eigenen Long-Context-Prompt unter /live-test. Der Unterschied zwischen Modellen ist am deutlichsten, wenn die Eingabe groß genug ist, um sie zu belasten.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Claude Sonnet 4.6 — illustration 2Claude Sonnet 4.6 — illustration 3
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
1064 ms
P95-Latenz
1127 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026