
Hinweis — Legacy-Snapshot. Claude Opus 4 (
claude-opus-4-20250514) ist die Mai-2025-Version, die die 4.x-Generation eröffnete. Produktionsteams, die heute ein Opus auswählen, sollten Opus 4.5, 4.6 und 4.7 vergleichen. Diese Seite dient der Migrationsplanung und als historische Referenz.
Claude Opus 4 war das erste Modell in der Anthropic-4.x-Linie. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Der Reasoning-Stil, der die Familie definierte — bedächtig, explizit, zurückhaltend beim Erfinden, wenn der Prompt mehrdeutig ist, und mit Vorliebe für das Ausbreiten der Zwischenschritte vor einer Entscheidung.
Beim Launch stand es an der Spitze des Anthropic-Stacks und hielt der GPT-4-Generation stand, die es ablösen sollte. Ein Jahr später ist das Bild anders.
Warum es noch auf dieser Website erscheint
Die meisten Teams sind weitermigriert, aber einige Situationen halten ältere Opus-Snapshots in aktivem Einsatz:
- Verankerte Evaluierungs-Suites, die über lange Benchmarking-Zyklen hinweg stabiles Modellverhalten benötigen.
- Compliance-Pipelines, die gegen Opus-4-Output auditiert wurden und noch nicht für einen neueren Snapshot neu auditiert sind.
- Workflows, die Last auf mehrere Opus-Versionen verteilen, um Per-Tier-Ratenlimits zu verwalten.
- Forschung, die explizit die 4.x-Evolution untersucht und das originale 4.0 als Baseline benötigt.
Wer nicht in einer dieser Situationen ist, sollte diese Seite als Hintergrundinformation betrachten und ein aktuelles Modell wählen.
Was es gut kann
Opus 4 hat das Constitutional-AI-Erbe sauber weitergeführt. Ablehnungen sind kohärent und erklärbar. Strukturierte Ausgabe ist zuverlässig — JSON-Schemas werden eingehalten, Tool-Use-Aufrufe liefern saubere Payloads. Mehrsprachige Verwaltungsprosa wird über Deutsch, Französisch, Niederländisch und die nordischen Sprachen hinweg mit gleicher Sorgfalt behandelt. Die europäischsprachige Stärke ist ein stiller roter Faden durch die gesamte Opus-Familie.
Vision-Eingabe funktioniert für die üblichen Dokumentenleseaufgaben. Dashboard-Screenshots, gescannte Formulare, als Seitenbilder gerenderte PDFs. Das Modell denkt über das Gesehene nach, anstatt es nur zu transkribieren. Diese Unterscheidung war beim Launch weniger verbreitet als heute.
Was es schlecht kann
Long-Context-Retention. Das 200k-Fenster ist real, aber die Aufmerksamkeitsqualität lässt in der Mitte langer Puffer nach. Nadel-Retrieval in der Tiefe war beim Launch mittelmäßig und wurde von jedem Opus-Snapshot, den Anthropic danach ausgeliefert hat, übertroffen. Wer sich auf Fakten stützt, die am Anfang einer 150.000-Token-Eingabe vergraben sind, sollte woanders suchen.
Geschwindigkeit. Opus 4 war beim Launch die langsamste Stufe, und die Lücke hat sich nicht zu seinen Gunsten geschlossen. Time-to-First-Token steigt bei längeren Prompts schnell an. Das aktuelle Latenz-Bild finden Sie auf /benchmarks/speed.
Code-Generierung unter sich schnell entwickelnden Frameworks. Das Modell schreibt ausführlichen, defensiven Code, während aktuelle Frontiers idiomatischen Output produzieren. Für IDE-passendes Coding deckt die Modellübersicht auf /usecases/code die Alternativen ab.
Einordnung in die heutige Modelllandschaft
Gegenüber neueren Anthropic-Flaggschiffen — Opus 4.5, 4.6, 4.7 — liegt Version 4.0 in jeder auf /benchmarks/intelligence verfolgten Kategorie zurück. Opus 4.7 bringt insbesondere ein Million-Token-Kontextfenster und deutlich bessere Aufmerksamkeit in der Tiefe.
Gegenüber dem Rest des Frontiers Stand Mitte 2026: GPT-5 und Gemini 3 Pro Preview schlagen Opus 4.0 in den meisten veröffentlichten Benchmark-Kategorien. Diese Lücke war beim Launch von 4.0 noch ungeklärt. Das Frontier hat sich weiterentwickelt.
Wer 2026 ein Modell neu auswählt, hat keinen Qualitätsgrund, mit Opus 4.0 zu beginnen. Das vollständige Bild über Kategorien hinweg finden Sie auf /benchmarks/leaderboard.
Migrationspfade
Die direkten Upgrades:
- Gleiche Kontextgröße, ähnliches Verhalten: Opus 4.5. Produktionsteams berichten von Drop-in-Kompatibilität für die meisten Workloads nach einem kurzen Shadow-Traffic-Lauf.
- Größeres Kontextfenster: Opus 4.7 bringt eine Million Token mit der stärksten Long-Context-Aufmerksamkeit in der Claude-Linie.
- Kostensensitiv: Sonnet 4.5 oder 4.6 deckt einen Großteil der Fläche zu einem anderen Preispunkt ab. Eigene Evaluierungen lohnen sich.
Die ehrliche Regel: Frontier-Lücken auf öffentlichen Benchmarks entsprechen selten den Lücken, die man bei eigenen Prompts sieht. Testen Sie den Kandidaten gegen das eigene Evaluierungsset, bevor Sie sich festlegen.
Deployment-Hinweise
Standard-Anthropic-API. REST. Streaming. System-Prompts verhalten sich erwartungsgemäß. Tool-Use ist zuverlässig genug, um Agenten darauf aufzubauen, ohne defensive Parser.
EU-Datenresidenz ist der wiederkehrende Streitpunkt. Anthropics Inferenz läuft auf AWS und Google Cloud, und die öffentliche API bietet für Opus 4.0 oder ein anderes Claude-Modell keinen Regionsauswahlparameter. Ohne Enterprise-Vertrag ist EU-only-Inferenz nicht fixierbar. Enterprise-Verträge können Residenzklauseln aushandeln. Teams mit strikten Residenzanforderungen sollten die Open-Weight-Übersicht auf /usecases/local prüfen.
Logs werden 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.
Wann es richtig ist, bei 4.0 zu bleiben
Audit-Overhead ist der häufigste Grund. Bei einer regulierten Pipeline mit dokumentiertem Modellverhalten ist eine Migration nicht nur eine Konfigurationsänderung. Es ist ein Neuaudit, eine Neuvalidierung, möglicherweise eine Neuzertifizierung. Die Kosten dieser Arbeit müssen die Hürde „dieses Modell ist für unseren Workload bedeutend besser" übersteigen.
Pinned-Snapshot-Forschung ist der andere häufige Fall. Eine Studie, die das Reasoning-Verhalten von 4.0, 4.5, 4.6 und 4.7 vergleicht, braucht 4.0 als Referenzpunkt. Anthropic hält die datierten Snapshots genau dafür verfügbar.
Für Neubauten trifft keine dieser Situationen zu, und eine aktuelle Opus-Revision ist der richtige Ausgangspunkt.
Wann Sie es einsetzen sollten
Greifen Sie zu Claude Opus 4, wenn:
- Sie eine bestehende auditierte Integration darauf haben.
- Sie einen verankerten Snapshot für Vergleiche oder Forschung benötigen.
- Eine Migration zu einer aktuellen Opus-Revision wirklich noch nicht gerechtfertigt ist.
Wählen Sie etwas anderes, wenn:
- Sie 2026 ein Modell neu auswählen.
- Der Workload von Long-Context-Aufmerksamkeit in der Tiefe abhängt.
- Latenz, Kosten oder starke Code-Generierung wichtiger sind als der Reasoning-Stil.
- Sie etwas außerhalb von Text und Vision benötigen — Audio, Sprache, Video, Embeddings.
Testen Sie Opus 4 gegen aktuelle Frontiers unter /live-test. Die Unterschiede werden im direkten Vergleich am deutlichsten sichtbar.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

