
Claude Opus 4.5 (claude-opus-4-5-20251101) ist der Opus-Snapshot vom November 2025. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Wenn man Ende 2025 oder Anfang 2026 einen Anthropic-Solutions-Engineer nach dem richtigen Opus für den Produktionseinsatz fragte, zeigte er fast sicher auf dieses Modell.
Es ist nicht das aktuellste Opus. Diesen Platz belegt 4.7 mit seinem Million-Token-Fenster. Es ist das stabilste, am gründlichsten gehärtete gegen die Randfälle, die Frontier-Modelle in echten Deployments treffen, und das, auf das sich die meisten Produktionsteams einigen.
Warum dieser Snapshot sich durchgesetzt hat
Ein typisches Muster bei Frontier-Model-Releases: Der erste Schnitt kommt heraus, der zweite poliert die Unebenheiten, der dritte behebt, was der Produktions-Traffic aufgedeckt hat. Opus 4.5 war der dritte Schnitt für die 4.x-Linie. Das 4.0-Release hatte stärkeres Rohes Reasoning als seine Vorgänger, aber Schwachstellen in der Tool-Use-Zuverlässigkeit und der strukturierten Ausgabe. 4.1 schloss einiges davon. 4.5 schloss das meiste des Rests.
In der Praxis bedeutet das: Tool-Use-Aufrufe, die konsistent saubere Payloads zurückgeben — keine gelegentlich halluzinierten Extra-Felder, kein fehlerhaftes JSON bei komplexen Schemas. Ablehnungen, die kohärent und erklärbar sind, mit sichtbarem Reasoning des Modells, sodass man False Positives debuggen kann. Langer Output, der über viele Absätze zusammenhält, ohne in die Art von Selbstwiederholung zu verfallen, die frühere Claude-Snapshots zeigten.
Für Teams, die einen Agent-Loop oder eine strukturierte Extraktions-Pipeline in großem Umfang betreiben, zählen diese Eigenschaften mehr als ein paar Prozentpunkte auf einem Benchmark.
Was das 200k-Fenster wirklich bringt
Zweihunderttausend Token reichen für eine umfangreiche Codebasis, einen langen Quartalsbericht oder ein mehrteiliges Due-Diligence-Dossier. Opus 4.5 hält die Aufmerksamkeit über den gesamten Puffer vernünftig aufrecht, mit dem üblichen Vorbehalt, dass die Nadel-Retrieval-Qualität in der Mitte sehr langer Eingaben etwas nachlässt.
Wer seinen Workload regelmäßig jenseits von 150.000 Eingabe-Token schiebt, hat zwei vernünftige Optionen. Auf 4.5 bleiben und Prompt-Engineering-Muster nutzen — die Frage am Ende des Puffers wiederholen, den Kontext mit klaren Überschriften strukturieren — um das Modell verankert zu halten. Oder zu Opus 4.7 wechseln, das ein Million-Token-Fenster und deutlich bessere Aufmerksamkeit in der Tiefe mitbringt. Das Latenzprofil unterscheidet sich; die aktuellen Zahlen finden Sie auf /benchmarks/speed.
Vision-Eingabe, gut eingesetzt
Opus 4.5 erbt den starken Vision-Stack der 4.x-Familie. Dokument-Screenshots, gescannte PDFs als Seitenbilder, Dashboard-Aufnahmen, Diagramme — es liest sie mit derselben Sorgfalt wie Text. Tabellen werden sauber extrahiert. Diagramme mit vernünftigen Beschriftungsgrößen werden korrekt beschrieben, einschließlich Achseneinheiten und ungefährer Größenordnungen von Unterschieden zwischen Balken.
Die Schwachstellen sind dieselben wie im Rest der Claude-Familie. Handschrift ist unbeständig. Dichte wissenschaftliche Abbildungen mit winzigen Beschriftungen werden teilweise falsch gelesen. Alles, bei dem ein Mensch auf die Quelle squinten würde, braucht einen menschlichen Kontrollschritt.
Einordnung in die Modelllandschaft
Das ehrliche Wettbewerbsbild 2026: Opus 4.5 wechselt je nach Workload Siege mit GPT-5 und Gemini 3 Pro Preview. Keines ist in jeder Kategorie durchgängig besser.
Stärken von Opus 4.5:
- Ablehnungshaltung und Constitutional-Behavior. Wenn die Anwendung von konsistenten, erklärbaren Ablehnungen profitiert, sind Anthropic-Modelle die sicherere Wahl.
- Europäischsprachige Verwaltungsprosa. Deutsch, Französisch, Niederländisch, Polnisch — die Opus-Linie anglisiert keine Fachbegriffe, wie es manche konkurrierenden Frontier-Modelle tun.
- Zuverlässigkeit bei strukturierter Ausgabe. Schema-Einhaltung gehört zu den stärksten im Feld.
Schwächen:
- Reine Geschwindigkeit bei kurzen Prompts. GPT-5 streamt bei Gesprächsrunden schneller.
- Sehr langer Kontext. Opus 4.7 ist die richtige Wahl, wenn mehr als 200k Token benötigt werden.
- Native Multimodalität über Bilder hinaus. Gemini verarbeitet Audio- und Video-Eingaben nativ; Opus 4.5 nicht.
Das Kategorie-Bild über alle Live-Modelle finden Sie auf /benchmarks/leaderboard und /benchmarks/intelligence.
Wann es das falsche Werkzeug ist
Echtzeit-Sprache und Audio. Opus 4.5 hat keine Audio-Eingabe. Der Voice-Pipeline-Leitfaden auf /usecases/voice erklärt die richtige Architektur.
Hochvolumige Klassifizierung zu niedrigen Kosten. Millionen kurzer Prompts durch ein Frontier-Opus-Tier zu schicken ist der falsche Aufwand. Claude Haiku 4.5 oder Gemini 2.5 Flash erledigt das für eine andere Kostenstufe ohne merklichen Qualitätsverlust bei einfachen Aufgaben.
Code-Generierung unter sich schnell entwickelnden Frameworks, wenn idiomatischer Output gewünscht ist. Das Modell ist kompetent, aber konservativ. Für IDE-passendes Arbeiten vergleicht die Übersicht auf /usecases/code die Optionen.
Alles, was On-Premise-Deployment oder Modell-Fine-Tuning erfordert. Anthropic liefert keine Gewichte und bietet kein Supervised-Fine-Tuning auf der Opus-Stufe. Open-Weight-Optionen für diese Anforderungen sind auf /usecases/local beschrieben.
Deployment-Hinweise
Standard-Anthropic-API. REST. Streaming funktioniert sauber. System-Prompts verhalten sich vorhersehbar. Die Tool-Use-Qualität ist hoch genug, um Produktionsagenten darauf aufzubauen, ohne defensive Parsing-Schichten zu schreiben.
EU-Datenresidenz ist der wiederkehrende Streitpunkt für europäische Beschaffung. Anthropics Inferenz läuft auf AWS- und Google-Cloud-Infrastruktur, und die öffentliche API bietet für kein Claude-Modell einen Regionsauswahlparameter. Ohne Zusatzvertrag ist ein ausschließlich EU-basierter Inferenzpfad nicht garantiert. Enterprise-Verträge können Residenzklauseln aushandeln; die Standard-API kann es nicht. Teams mit strikten Residenzanforderungen sollten OVH-gehostete Alternativen in Betracht ziehen.
Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.
Wann Sie es einsetzen sollten
Greifen Sie zu Claude Opus 4.5, wenn:
- Sie den am gründlichsten für die Produktion gehärteten Opus-Snapshot wollen, nicht unbedingt den neuesten.
- Der Workload komfortabel in 200k Token Kontext passt.
- Zuverlässigkeit bei strukturierter Ausgabe und Konsistenz bei Ablehnungen für Ihr Design wichtig sind.
- Sie europäischsprachige Verwaltungs- oder Rechtstexte verarbeiten, bei denen terminologische Treue zählt.
Wählen Sie etwas anderes, wenn:
- Sie routinemäßig mehr als 200k Token Kontext benötigen. Wechseln Sie zu Opus 4.7.
- Sie Sub-Cent-Kosten pro Aufruf brauchen. Wechseln Sie nach unten zu Haiku oder Sonnet.
- Audio- oder Video-Eingabe Teil des Workloads ist. Falsche Familie.
- Sie selbst gehostete Gewichte oder Fine-Tuning benötigen. Sehen Sie sich die Open-Weight-Übersicht an.
Zusammenfassung: Opus 4.5 ist die sichere, unspektakuläre Wahl für Produktions-Opus-Workloads. Das ist ein Kompliment. Die neueren Opus-Snapshots sind am führenden Rand möglicherweise fähiger, aber 4.5 ist das, nach dem die meisten Teams greifen werden — und das ist die richtige Entscheidung.
Testen Sie es selbst gegen aktuelle Alternativen auf /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai
