Positioniert sich Sonnet 4.6 zwischen Haiku und Opus?

Genau – es ist das Mittelklassemodell der Claude-4-Familie, das Leistung und Effizienz ausbalanciert.

Ist Sonnet 4.6 für Produktionsumgebungen geeignet?

Ja, es ist für zuverlässige Sprachgenerierung in diversen Produktionsszenarien konzipiert.

Welche Schlüsseldomänen unterstützt Sonnet 4.6?

Kundensupport, Inhaltsgenerierung, technische Dokumentation und Datenanalyse.

Tier A — Frontier

Läuft in:USErstellt in:United States

Anthropic

Claude Sonnet 4.6

Tier A — Frontier · 1M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Claude Sonnet 4.6 ist ein von Anthropic entwickeltes großes Sprachmodell, das als Teil der Claude 3.5-Modellgeneration veröffentlicht wurde. Es stellt eine iterative Weiterentwicklung von Claude 3.5 Sonnet dar und bietet verbesserte Leistung bei Reasoning, Coding und allgemeinen Textgenerierungsaufgaben, wobei der ausgewogene Ansatz beibehalten wird, der die Sonnet-Stufe in Anthropics Modellfamilie kennzeichnet. Das Modell verfügt über ein Kontextfenster von 200,000 Tokens und unterstützt Standard-Textgenerierungsfunktionen, darunter mehrstufige Konversationen, Inhaltserstellung, Analyse und Coding-Unterstützung. Claude Sonnet 4.6 ist als vielseitiges Allzweckmodell konzipiert, das für ein breites Anwendungsspektrum geeignet ist – vom Kundenservice und der Inhaltserstellung bis hin zur technischen Dokumentation und Datenanalyse. Es verarbeitet sowohl Text-Eingaben als auch -Ausgaben und konzentriert sich darauf, kohärente, kontextuell passende Antworten über diverse Domänen hinweg zu liefern. Innerhalb von Anthropics Modellpalette nimmt Claude Sonnet 4.6 die mittlere Stufe ein, positioniert zwischen den schnelleren, effizienteren Haiku-Modellen und den leistungsfähigeren Opus-Modellen. Diese Positionierung macht es geeignet für Anwendungen, die eine Balance zwischen Leistungsqualität und Recheneffizienz erfordern. Das Modell integriert Anthropics Constitutional-AI-Trainingsansatz, der Hilfsbereitschaft, Unbedenklichkeit und Ehrlichkeit in den Antworten betont. Es wird häufig in Produktionsumgebungen eingesetzt, in denen zuverlässige, hochwertige Sprachgenerierung erforderlich ist, ohne den Ressourcenbedarf von Flaggschiff-Modellen.

Claude Sonnet 4.6 mit eigenen Fragen testen

Claude Sonnet 4.6 mit 1-Million-Token-Kontext – Anthropics vielseitigstes Mittelklassemodell erreicht eine neue Dimension.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Claude Sonnet 4.6

$3.00 pro 1M Input-Tokens

$15.00 pro 1M Output-Tokens

≈ $0.0048 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$3.00

pro 1M Output-Tokens$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)92 / avg 169

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1-Million-Token-KontextfensterBalance zwischen Qualität und EffizienzCoding- und Analyse-SupportVielseitige AllzweckanwendbarkeitConstitutional-AI-AnsatzGroße Dokumentenmengen verarbeitbar

Schwächen

Weniger Reasoning-Tiefe als Opus-TierKein Audio oder Bild-InputGroße Kontextverarbeitung erhöht Latenz

Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000

Abschnitt 07

Häufig gestellte Fragen

Es erlaubt die Verarbeitung sehr langer Dokumente, kompletter Codebasen oder ausgedehnter Gesprächsverläufe ohne Unterbrechung.

Das erweiterte Kontextfenster macht Sonnet 4.6 zur ersten Wahl, wenn große Dokumentenmassen und ausgewogene Leistung zusammenfallen.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=42

Letzte 30 Tage

100.0%

n=305

Mediane Antwortzeit

18,379ms

n=305

Basierend auf 685 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

305

OK-Antworten (30d)

305

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-596/100 · 116 runs

111 correct5 partial0 wrong96% accuracy

● 2026-07-26

Claude Sonnet 4.6 adds multimodal and structured output capabilities

Claude Sonnet 4.6 introduces significant new capabilities while maintaining its existing performance profile. The model now supports vision input for image analysis, tool calling for function execution, and multiple structured output formats including JSON mode and JSON schema validation. PDF input processing and prompt caching have also been added, expanding the model's utility for document-heavy workflows. A new reasoning mode enables more deliberate problem-solving approaches. These additions position Sonnet 4.6 as a more versatile option for developers building multimodal applications. However, no benchmark performance data is available for this window, making it impossible to assess whether core capabilities like instruction following, mathematical reasoning, or coding performance have improved, regressed, or remained stable compared to the previous evaluation period. Users should expect the same baseline model quality as before, now augmented with these additional modalities and output controls. The new features align Sonnet 4.6 with industry trends toward multimodal AI systems, though quantitative validation of performance across these new capabilities remains pending.

Quality

—

Latency p50

—

Test runs

✓ Vision and PDF input added✓ Structured output formats supported✓ Tool calling now available✓ Reasoning mode introduced

Abschnitt 10

Vollständiges Modellprofil

Claude Sonnet 4.6: Million-Token-Mid-Tier ohne Opus-Preisschild

Claude Sonnet 4.6 (claude-sonnet-4-6) ist der Sonnet-Snapshot, der die 200k-Kontextgrenze durchbrochen hat. Eine Million Token Kontextfenster. Text- und Vision-Eingabe. Das Mid-Tier-Modell, das erstmals in der Claude-Familie sehr lange Eingaben zu einer vernünftigen Wahl machte, ohne für die Opus-Stufe zu zahlen.

Die treffendste Beschreibung: Sonnet 4.6 ist das Modell, nach dem man greift, wenn man Sonnet-typische Zuverlässigkeit und Ablehnungshaltung will, aber einen Workload hat, der nicht in 200k Token passt. Das ist eine engere Bandbreite von Anwendungsfällen als die allgemeine Sonnet-Linie — aber eine Bandbreite, für die es vor diesem Snapshot keine gute Antwort gab.

Was das Million-Token-Fenster wirklich bringt

Eine Million Token reichen für einen vollständigen Quartalsbericht, ein mittelgroßes Monorepo oder einen mehrmonatigen Chat-Thread. Die Marketing-Aussage ist real. Die praktische Frage ist dieselbe wie bei jedem Long-Context-Modell: hält die Aufmerksamkeitsqualität über den gesamten Puffer stand, oder verliert das Modell den Faden zu Anfang platzierten Fakten, wenn das Ende voll ist.

Sonnet 4.6 hält die Aufmerksamkeit gut über die 200k-Marke hinaus, an der der Rest der Sonnet-Linie stößt. Jenseits von etwa 600.000 Token dehnt sich die Latenz aus, und Streaming-Token-pro-Sekunde sinkt. Detaillierte Zahlen ändern sich jede Iteration; das aktuelle Bild finden Sie auf /benchmarks/speed.

Zwei praktische Konsequenzen: Erstens ist das lange Fenster für dokumentübergreifende Sorgfaltsprüfung, vollständige Repo-Code-Reviews und lange Konversations-Threads wirklich nutzbar — keine bloße Spezifikationszahl für eine Präsentation. Zweitens sollte man dennoch über Prompt-Caching für wiederholte Abfragen gegen dasselbe große Korpus nachdenken. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig, selbst wenn der API-Aufruf selbst sauber gelingt.

Vergleich mit Opus 4.7 bei langen Kontexten

Sowohl Sonnet 4.6 als auch Opus 4.7 bringen Million-Token-Fenster mit. Der Unterschied ist, was man erwarten würde:

Opus 4.7 ist sorgfältiger, vorsichtiger und reasont längere interne Schritte durch, bevor es antwortet.
Sonnet 4.6 ist bei gleicher Eingabe schneller und produziert Antworten näher an der ersten plausiblen Interpretation, ohne Alternativen durchzuarbeiten.
Bei reinem Retrieval — „Finde diese Tatsache in diesem 800k-Token-Dokument" — liegen die beiden nah beieinander. Bei der Synthese über viele verstreute Fakten gewinnt Opus in der Regel.
Für kostensensitive Long-Context-Workloads, bei denen Top-of-Stack-Reasoning nicht spezifisch benötigt wird, ist Sonnet 4.6 die richtige Wahl.

Testen Sie beide mit eigenen Prompts. Die Deltas bei realen Workloads entsprechen selten den öffentlichen Benchmark-Lücken.

Vision-Eingabe, die ihr Gewicht trägt

Sonnet 4.6 behält den Vision-Stack der 4.x-Linie. Dokument-Screenshots, gescannte PDFs als Seitenbilder, Dashboard-Aufnahmen, Diagramme. Tabellenextraktion ist sauber. Diagramme mit vernünftigen Beschriftungsgrößen werden korrekt beschrieben.

Dieselben Schwachstellen wie im Rest der Claude-Familie. Handschrift ist unbeständig. Dichte wissenschaftliche Abbildungen mit winzigen Achsenbeschriftungen werden teilweise falsch gelesen. Alles, bei dem ein Mensch hineinzoomen müsste, profitiert von einem Verifikationsschritt.

Für Workloads, die Vision-Eingabe mit dem langen Kontextfenster kombinieren — etwa ein gesamtes PDF als Seitenbilder zusammen mit strukturierten Metadaten — ist Sonnet 4.6 eine der fähigeren Optionen im Feld. Gemini 3 Pro Preview konkurriert hier auf etwa gleichem Niveau.

Einordnung in die Modelllandschaft

Das ehrliche Wettbewerbsbild für Sonnet 4.6:

Gegenüber Opus 4.7: Sonnet 4.6 ist schneller und günstiger zu betreiben, Opus 4.7 reasont bei komplexen Aufgaben sorgfältiger. Für Workloads, bei denen das Modell Fakten aus einer langen Eingabe ziehen und zusammenfassen soll, ist Sonnet meist ausreichend. Für Workloads mit mehrstufigem Reasoning über eine lange Eingabe ist Opus die bessere Wahl.

Gegenüber Gemini 2.5 Pro und GPT-5-Mid-Tier: Sonnet 4.6 gewinnt bei Ablehnungskonsistenz und europäischsprachiger Verwaltungsprosa. Gemini gewinnt bei nativer Multimodalität über Bilder hinaus. GPT-5-Mid-Tier gewinnt bei reiner Geschwindigkeit für kurze Gesprächsrunden.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und /benchmarks/intelligence.

Wann es das falsche Werkzeug ist

Workloads, bei denen 200k Token ausreichen. Sonnet 4.5 ist günstiger zu betreiben und verhält sich innerhalb seines Fensters ähnlich. Die Million-Token-Fähigkeit kostet etwas an Latenz und operationeller Komplexität, das man nicht zahlen sollte, wenn man es nicht braucht.

Echtzeit-Sprache. Keine Audio-Eingabe. Den Voice-Pipeline-Leitfaden finden Sie auf /usecases/voice.

Hochvolumige günstige Klassifizierung. Mid-Tier-Rechenleistung auf long-context-fähigen Modellen ist der falsche Aufwand für Millionen kurzer Prompts. Claude Haiku 4.5 oder eine der kleineren Gemini-Flash-Varianten erledigt das für eine andere Kostenstufe.

Code-Generierung unter sich schnell entwickelnden Frameworks. Konservativer Output-Stil. Für IDE-passendes Arbeiten deckt die Übersicht auf /usecases/code die Alternativen ab.

Self-Hosted-Deployment oder Fine-Tuning. Anthropic liefert keine Gewichte. Die Open-Weight-Übersicht auf /usecases/local ist der richtige Ausgangspunkt, wenn diese Anforderungen gelten.

Deployment-Hinweise

Standard-Anthropic-API. REST. Streaming. System-Prompts verhalten sich vorhersagbar. Tool-Use ist zuverlässig genug, um Produktionsagenten darauf aufzubauen.

EU-Datenresidenz bleibt der wiederkehrende Streitpunkt. Anthropics Inferenz läuft auf AWS und Google Cloud, und die öffentliche API bietet für kein Claude-Modell einen Regionsauswahlparameter. Ohne Enterprise-Vertrag ist ein ausschließlich EU-basierter Inferenzpfad nicht garantiert. Enterprise-Verträge können Residenzklauseln aushandeln. Bei strikten Residenzanforderungen sind die Open-Weight-Optionen auf /usecases/local der richtige Ausgangspunkt.

Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.

Wann Sie es einsetzen sollten

Greifen Sie zu Claude Sonnet 4.6, wenn:

Der Workload regelmäßig 200k Token Eingabe überschreitet.
Sie Sonnet-typische Geschwindigkeit und Ablehnungshaltung wollen, nicht Opus-Tier-Reasoning-Tiefe.
Sie dokumentübergreifende Sorgfaltsprüfung, vollständige Repo-Code-Reviews oder andere Aufgaben durchführen, bei denen das lange Fenster sich bezahlt macht.
Europäischsprachige Verwaltungs- oder Rechtstexte Teil der Eingabe sind.

Wählen Sie etwas anderes, wenn:

Der Workload komfortabel in 200k Token passt. Verwenden Sie Sonnet 4.5.
Sie Top-of-Stack-Reasoning über die lange Eingabe brauchen. Wechseln Sie zu Opus 4.7.
Sie Sub-Cent-Kosten pro Aufruf bei kurzen Prompts benötigen. Wechseln Sie nach unten zu Haiku.
Audio, Sprache oder Video Teil des Workloads ist.

Zusammenfassung: Sonnet 4.6 ist die richtige Antwort für Long-Context-Mid-Tier-Workloads. Es ist nicht die richtige Antwort für alles — und das ist in Ordnung. Für seine spezifische Bandbreite gehört es zu den stärksten Modellen auf dem Markt.

Testen Sie es mit einem eigenen Long-Context-Prompt unter /live-test. Der Unterschied zwischen Modellen ist am deutlichsten, wenn die Eingabe groß genug ist, um sie zu belasten.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 08:06 UTC · Geschwindigkeits-Benchmark

P50-Latenz

2173 ms

P95-Latenz

2547 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026