Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
Anthropic

Claude Sonnet 4

Tier C — Spezialist · 200K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Claude Sonnet 4 ist ein großes Sprachmodell von Anthropic, das Ende 2024 als Teil der Claude-3.5-Modellfamilie veröffentlicht wurde. Es positioniert sich im mittleren Leistungssegment und verbindet solide Leistung bei allgemeinen Textgenerierungsaufgaben mit effizienter Ressourcennutzung. Das Modell verfügt über ein Kontextfenster von 200,000 Tokens, wodurch es lange Dokumente, ausgedehnte Konversationen und komplexe mehrstufige Interaktionen kohärent verarbeiten kann. Das Modell ist auf typische Textgenerierungs-Workloads ausgelegt, darunter Content-Erstellung, Analyse, Zusammenfassung, Frage-Antwort-Systeme und Konversationsanwendungen. Es zeigt Kompetenz bei Programmieraufgaben, mathematischem Reasoning und domänenübergreifender Wissenssynthese. Claude Sonnet 4 verarbeitet Text als Ein- und Ausgabe, ohne native Unterstützung für Bild- oder multimodale Eingaben in der Standardkonfiguration. Innerhalb der Modellpalette von Anthropic ist Claude Sonnet 4 zwischen der rechenintensiveren Opus-Stufe und den schlankeren Haiku-Varianten angesiedelt. Es richtet sich als Allzweckoption an Entwickler und Organisationen, die zuverlässige Sprachmodellfunktionen ohne die maximale Leistung der Flaggschiff-Modelle benötigen. Das Modell setzt Anthropics Constitutional-AI-Trainingsmethodik um, die Hilfsbereitschaft, Unbedenklichkeit und Ehrlichkeit in den Antworten betont. Es löst frühere Versionen der Sonnet-Reihe ab und bringt Verbesserungen bei Reasoning, Instruction Following und Ausgabequalität über verschiedene Aufgabentypen hinweg.

Claude Sonnet 4 vereint starke Allgemeinleistung mit 200.000 Tokens Kontext – das Arbeitspferd der Claude-3.5-Familie.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
1553065597488841179305-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Claude Sonnet 4
$3.00 pro 1M Input-Tokens
$15.00 pro 1M Output-Tokens
≈ $0.0048 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$3.00
pro 1M Output-Tokens$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)36 / avg 224
127220

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Ausgewogene Leistung und Effizienz200.000-Token-KontextfensterSolide Code-UnterstützungBreite InhaltsgenerierungConstitutional-AI-TrainingGeeignet für viele Produktionsszenarien

Schwächen

Weniger Reasoning-Tiefe als OpusKein nativer Audio-SupportKein Bild-Input in Standardkonfiguration
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Abschnitt 07

Häufig gestellte Fragen

Inhaltserstellung, Analyse, Zusammenfassung, Frage-Antwort-Systeme und Coding-Unterstützung über viele Domänen hinweg.

Sonnet 4 ist die erste Wahl, wenn Leistungsbreite und Effizienz gleich wichtig sind.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 76 runs
72 correct3 partial1 wrong95% accuracy
2026-06-14

Claude Sonnet 4 maintains perfect scores but latency increases 24%

Claude Sonnet 4 continues to demonstrate exceptional performance with a near-perfect overall quality score of 99.6, up from 96.6 in the previous window. The model maintains its perfect 100 score in coding and sustains a strong 99 in multilingual tasks, showing consistency in core technical capabilities. Reasoning performance now registers at a perfect 100, representing a notable area of strength in this benchmark window. However, this performance comes with a trade-off in speed. The median latency has increased from 6331 ms to 7867 ms, representing a 24% slowdown. This suggests potential changes to model architecture or inference processes that prioritize output quality over response time. The benchmark testing methodology changed between windows, with different categories assessed. The current window evaluated reasoning as a distinct category, while the previous window separately measured creative and factual question performance. This shift in testing approach makes direct category comparisons challenging, though the overall trajectory shows quality improvements alongside slower response times. Users requiring maximum quality should find these results encouraging, while those prioritizing speed may need to evaluate whether the latency increase affects their use cases.

Quality

99.6

Latency p50

7,867 ms

Test runs

5

Quality score improved to 99.6 Perfect reasoning performance achieved Latency increased 24% Response time now 7.9 seconds
Abschnitt 10

Vollständiges Modellprofil

Claude Sonnet 4 — illustration 1
Claude Sonnet 4: das erste Mid-Tier der 4.x-Linie

Hinweis — Legacy-Snapshot. Claude Sonnet 4 (claude-sonnet-4-20250514) ist das Mai-2025-Release. Produktionsteams, die heute nach einem Mid-Tier-Claude suchen, sollten Sonnet 4.5 und Sonnet 4.6 vergleichen. Diese Seite dient der Migrationsplanung und als historische Referenz.

Claude Sonnet 4 war das Mid-Tier-Release vom Mai 2025, das die 4.x-Sonnet-Linie eröffnete. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Die Positionierung beim Launch war klar — Opus-Reasoning-Qualität zu deutlich niedrigeren Kosten und schnelleren Antwortzeiten.

Ein Jahr später hat sich das Bild verschoben. Sonnet 4.5 und 4.6 sind die Snapshots, auf die sich die meisten Produktionsteams eingestellt haben. Sonnet 4.0 funktioniert noch, bedient noch Traffic für Teams, die noch nicht aktualisiert haben, ist aber nicht mehr der richtige Ausgangspunkt für einen Neubau.

Warum es noch eine Rolle spielt

Einige Situationen halten ältere Sonnet-Snapshots in aktivem Einsatz:

  • Verankerte Evaluierungs-Suites, bei denen stabiles Modellverhalten wichtiger ist als neuere Fähigkeiten.
  • Auditierte Compliance-Pipelines, die noch nicht gegen einen neueren Snapshot neu validiert wurden.
  • Kostengetriebene Workloads am Rand dessen, was ältere Sonnet-Preisstufen erlaubten.
  • Forschung, die explizit die Sonnet-4.x-Evolution vergleicht und 4.0 als Baseline benötigt.

Wer nicht in einer dieser Situationen ist, findet auf dieser Seite Hintergrundlektüre.

Was es gut kann

Das Mid-Tier-Versprechen war real. Sonnet 4.0 war bei den meisten Workloads deutlich schneller als Opus 4.0, während es den Großteil des Reasoning-Verhaltens beibehielt, das die Opus-Linie definierte. Einhaltung der strukturierten Ausgabe war gut für seine Stufe. Tool-Use-Aufrufe lieferten saubere Payloads. Europäischsprachige Verwaltungsprosa wurde sorgfältig behandelt — deutsches Rechtsidiom, französische Verwaltungsphrasen, niederländische Regierungs-Boilerplate blieben alle in ihrem nativen Register, statt zu englisch geprägter Ausgabe zu kollabieren.

Vision-Eingabe bei Sonnet 4.0 war solide für die üblichen Dokumentenleseaufgaben. Dashboard-Screenshots, gescannte Formulare, als Seitenbilder gerenderte PDFs. Das Modell dachte über das Gesehene nach, anstatt es nur zu transkribieren.

Was es schlecht kann

Long-Context-Retention war beim Launch mittelmäßig und wurde von jedem Sonnet-Snapshot übertroffen, den Anthropic danach auslieferte. Das 200k-Fenster ist real, aber die Aufmerksamkeitsqualität lässt jenseits von etwa 100.000 Eingabe-Token nach. Neuere Snapshots der 4.x-Linie haben diesen Abstand größtenteils geschlossen.

Code-Generierung war kompetent, aber konservativ. Das Modell schrieb ausführlichen, defensiv typisierten Code, während manche Konkurrenten idiomatischen Output schrieben. Für IDE-passendes Arbeiten deckt die Modellübersicht auf /usecases/code die Alternativen ab.

Latenz bei Streaming-Workloads war akzeptabel, aber nicht außergewöhnlich. Sonnet 4.5 und 4.6 haben etwas davon geschlossen. Gemini 2.5 Flash und ähnliche Tier-A-Konkurrenten haben es bei der Time-to-First-Token für kurze Prompts überholt.

Einordnung heute

Gegenüber neueren Anthropic-Sonnet-Snapshots — 4.5 und 4.6 — liegt Version 4.0 in jeder auf /benchmarks/intelligence verfolgten Kategorie zurück. Die Verbesserungen sind pro Release nicht dramatisch, aber sie summieren sich. Zwei Snapshots später ist das Delta bedeutend.

Gegenüber dem Rest des Mid-Tier-Feldes Stand Mitte 2026: GPT-5-Mid-Tier-Varianten und Gemini 2.5 Pro schlagen Sonnet 4.0 in den meisten veröffentlichten Benchmark-Kategorien. Die Lücke war beim Launch von 4.0 noch ungeklärt. Das Frontier hat sich weiterentwickelt.

Wer 2026 einen Sonnet neu auswählt, hat in Sonnet 4.5 einen sichereren Ausgangspunkt. Sonnet 4.6, wenn man die jüngsten Verbesserungen wünscht. Das vollständige Bild über Kategorien finden Sie auf /benchmarks/leaderboard.

Migrationspfade

Die Standard-Upgrades:

  • Gleiche Kontextgröße, ähnliches Verhalten: Sonnet 4.5. Produktionsteams berichten von Drop-in-Kompatibilität für die meisten Workloads nach einem kurzen Shadow-Traffic-Lauf.
  • Jüngste Verbesserungen: Sonnet 4.6. Tool-Use-Politur und Schema-Einhaltung sind straffer.
  • Größeres Kontextfenster: Sonnet 4.6 bringt ein Million-Token-Fenster mit. Der größte Sprung im operativen Profil für Sonnet-Workloads.

Die ehrliche Regel: Mid-Tier-Lücken auf öffentlichen Benchmarks entsprechen selten dem, was man bei eigenen Prompts sieht. Testen Sie den Kandidaten gegen das eigene Evaluierungsset, bevor Sie sich festlegen.

Deployment-Hinweise

Standard-Anthropic-API. REST. Streaming. System-Prompts verhalten sich erwartungsgemäß. Tool-Use ist zuverlässig genug, um Agenten darauf aufzubauen, ohne defensive Parser zu schreiben.

EU-Datenresidenz ist der wiederkehrende Streitpunkt. Anthropics Inferenz läuft auf AWS und Google Cloud, und die öffentliche API bietet für Sonnet 4.0 oder ein anderes Claude-Modell keinen Regionsauswahlparameter. Ohne Enterprise-Vertrag ist ein ausschließlich EU-basierter Inferenzpfad nicht garantiert. Enterprise-Verträge können Residenzklauseln aushandeln. Teams mit strikten Residenzanforderungen sollten die OVH-gehostete Open-Weight-Übersicht auf /usecases/local prüfen.

Logs werden 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.

Wann es richtig ist, bei 4.0 zu bleiben

Audit-Overhead ist der häufigste Grund. Bei einer regulierten Pipeline mit dokumentiertem Modellverhalten ist eine Migration nicht nur eine Konfigurationsänderung. Neuaudit, Neuvalidierung, möglicherweise Neuzertifizierung — die Kosten dieser Arbeit müssen eine Hürde überwinden.

Pinned-Snapshot-Forschung ist der andere häufige Fall. Studien, die die Evolution der Sonnet-Linie vergleichen, brauchen 4.0 als Referenz. Anthropic hält datierte Snapshots genau dafür verfügbar.

Für Neubauten trifft keine dieser Situationen zu, und eine aktuelle Sonnet-Revision ist der richtige Ausgangspunkt.

Wann Sie es einsetzen sollten

Greifen Sie zu Claude Sonnet 4, wenn:

  • Sie eine bestehende auditierte Integration darauf haben.
  • Sie einen verankerten Snapshot für Vergleiche oder Forschung benötigen.
  • Eine Migration zu einer aktuellen Sonnet-Revision wirklich noch nicht gerechtfertigt ist.

Wählen Sie etwas anderes, wenn:

  • Sie 2026 ein Modell neu auswählen.
  • Der Workload von Long-Context-Aufmerksamkeit in der Tiefe abhängt.
  • Latenz, Kosten oder stärkere Code-Generierung wichtiger sind als das originale Sonnet-4-Verhalten.
  • Sie etwas außerhalb von Text und Vision benötigen.

Testen Sie Sonnet 4 gegen aktuelle Alternativen unter /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander. Die Unterschiede werden im direkten Vergleich am deutlichsten.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Claude Sonnet 4 — illustration 2
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
5563 ms
P95-Latenz
6642 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026