
Claude Opus 4.7 ist Anthropics aktuelles Top-of-Stack-Modell. Es bringt ein Ein-Millionen-Token-Kontextfenster mit und dieselbe Text-plus-Vision-Eingabe-Oberfläche, die die Opus-Linie seit 4.x trägt. Preise werden auf dieser Seite nicht genannt. Fähigkeiten schon.
Wer Zeit mit Opus 4.5 oder 4.6 verbracht hat, wird das 4.7-Update vertraut finden, bevor es sich anders anfühlt. Gleicher Ablehnungsstil, gleiche Vorliebe für das Zeigen des eigenen Gedankengangs, gleiche Präferenz für vorsichtige Antworten bei mehrdeutigen Prompts. Was sich verändert hat, liegt größtenteils darunter: besseres Nadel-Retrieval am langen Ende des Kontextfensters, straffere Tool-Call-Formatierung und ein etwas anderer Rhythmus bei langen Texten, den manche Rezensenten als weniger abgesichert beschreiben.
Was das 1M-Kontextfenster wirklich bringt
Eine Million Token reichen für einen vollständigen Quartalsbericht, ein mittelgroßes Monorepo oder die letzten achtzehn Monate des Slack-Verlaufs eines Teams. Das ist die Marketing-Aussage. Die praktische Frage ist, ob das Modell noch auf den Anfang des Puffers achtet, wenn das Ende voll ist.
In unseren eigenen Retrieval-Tests hält Opus 4.7 gut über die 200k-Marke hinaus, wo die vorherige Generation begann, am Anfang platzierte Fakten zu vergessen. Jenseits von etwa 600.000 Token dehnt sich die Latenz aus — Time-to-First-Token steigt merklich, und Streaming-Token-pro-Sekunde sinkt. Detaillierte Zahlen ändern sich jede Iteration; das aktuelle Bild finden Sie auf /benchmarks/speed und /benchmarks/intelligence.
Zwei praktische Konsequenzen: Erstens ist das lange Fenster für Aufgaben wie dokumentübergreifende Sorgfaltsprüfung und vollständige Repo-Code-Reviews wirklich nutzbar — keine bloße Spezifikationszahl. Zweitens sollte man dennoch über Prompt-Caching für wiederholte Abfragen gegen dasselbe große Korpus nachdenken. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig, selbst wenn der API-Aufruf selbst sauber gelingt.
Vision-Eingabe, mit Vorbehalten
Opus 4.7 akzeptiert Bilder neben Text. Es ist gut in den Dingen, in denen die Opus-Linie immer gut war: Dashboard-Screenshots lesen, Tabellen aus PDFs extrahieren, die als Seitenbilder gerendert wurden, Diagramme beschreiben. Bei dichten Diagrammen mit winzigen Achsenbeschriftungen ist es weniger beeindruckend, und handgeschriebene Zahlen werden noch häufig genug falsch gelesen, dass man es nicht in einem Loop ohne menschliche Kontrolle einsetzen sollte.
Für OCR-lastige Workloads, bei denen man hauptsächlich Text aus Bildern will, erledigt ein kleineres vision-fähiges Modell aus der Claude- oder Gemini-Familie die Arbeit oft zu einem Bruchteil der Kosten. Opus 4.7 sollte man für die Fälle aufsparen, in denen das Modell auch über das Gesehene nachdenken soll.
Einordnung in die Modelllandschaft
Opus 4.7 konkurriert mit GPT-5, GPT-5.1 und Gemini 3 Pro Preview an der Spitze des Stacks. Die Wahl zwischen ihnen ist selten ein klarer Sieg auf einer einzigen Achse.
Einige Muster halten sich konstant in unseren Tests. Opus 4.7 ist von den dreien am wahrscheinlichsten, einen grenzwertigen Prompt direkt abzulehnen — was manche Teams wollen und andere frustrierend finden. Es neigt dazu, zu überklären, wenn eine einzeilige Antwort ausreichen würde. Bei Structured-Output-Aufgaben mit einem JSON-Schema folgt es dem Schema zuverlässig, ohne die gelegentlich halluzinierten Extra-Felder früherer Claude-Versionen. Mehrsprachige Performance — insbesondere bei deutschem, französischem und polnischem Verwaltungsprosa — war eine stille Stärke der Opus-Linie, und 4.7 regrediert nicht.
GPT-5.1 fühlt sich bei kurzen Gesprächsrunden noch schneller an. Gemini 3 Pro Preview ist näher an der Parität als die vorherige Generation, aber sein Long-Context-Aufmerksamkeitsmuster ist anders — es performt manchmal besser bei einer vergrabenen Einzeltatsache und schlechter bei der Synthese über viele verstreute.
Für einen kategoriengenauen Vergleich ist das laufende /benchmarks/leaderboard der richtige Ort. Bewertungsmethodik und Datensatzauswahl sind auf /benchmarks/methodology dokumentiert.
Wann es das falsche Werkzeug ist
Code-Generierung unter sich schnell entwickelnden Frameworks. Opus 4.7 ist kompetent, aber konservativ; es schreibt sicheren, ausführlichen Code, während die Codex-artigen Konkurrenten idiomatischen Code schreiben. Für Autocomplete in einer IDE statt für geprüften Output macht der Unterschied etwas aus. Verwenden Sie eine der Modellübersichten auf /usecases/code für einen direkten Vergleich.
Echtzeit-Sprache und Audio. Opus 4.7 hat keine Audio-Eingabe. Schalten Sie ein Transkriptionsmodell vor, wenn Sie Sprache als Eingabe benötigen, oder wählen Sie ein Modell aus der Audio-Familie für den Anfang der Pipeline. Den Entscheidungsbaum finden Sie auf /usecases/voice.
Hochvolumige Klassifizierung zu niedrigen Kosten. Millionen kurzer Prompts durch ein Frontier-Modell zu schicken ist der falsche Aufwand. Claude Haiku 4.5, Gemini 2.5 Flash oder eines der kleineren OVH-gehosteten Llama- oder Mistral-Modelle erledigt das für einen Bruchteil des Budgets ohne merklichen Qualitätsverlust bei einfachen Aufgaben.
Alles, was Fine-Tuning erfordert. Anthropic bietet kein Supervised-Fine-Tuning auf der Opus-Stufe. Wer benutzerdefinierte Gewichte braucht — Domänenvokabular, ins Modell eingebettete Markenstimme — ist bei Open-Weight-Alternativen, nicht bei Opus.
Deployment-Hinweise
Die API ist unkompliziert. REST, Streaming unterstützt, System-Prompts verhalten sich erwartungsgemäß. Tool-Use-Aufrufe kommen sauber zurück und die Schema-Durchsetzung ist solide genug, um Agenten darauf aufzubauen, ohne eine Schicht defensiver Parser zu schreiben.
Regionale Verfügbarkeit ist der Punkt, der europäische Beschaffungsteams trifft. Anthropics Inferenz läuft auf Google Cloud und AWS, und die öffentliche API bietet keinen Regionsauswahlparameter. Enterprise-Verträge können Residenzklauseln aushandeln, aber die Standard-API garantiert keinen ausschließlich EU-basierten Inferenzpfad. Für Teams mit strikten Residenzanforderungen ist eine OVH-gehostete Llama-3.3-70B- oder Mistral-Small-Instanz ein ganz anderes Gespräch; siehe /usecases/local.
Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. API-Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist verfügbar, erfordert aber eine Vertragsverhandlung, keinen Einstellungsschalter.
Wann Sie es einsetzen sollten
Verwenden Sie Claude Opus 4.7, wenn Sie ein Modell benötigen, das:
- Sorgfältig über sehr lange Eingaben hinweg reasont, ohne den Faden zu verlieren.
- Strukturierten Output zuverlässig produziert.
- Europäischsprachige Verwaltungs- und Rechtstexte verarbeitet, ohne Fachbegriffe zu anglisieren.
- Bei Standardmäßig „ich bin nicht sicher" statt zu selbstbewusster Erfindung tendiert, wenn der Prompt die Antwort nicht enthält.
Übergehen Sie es, wenn Sie Echtzeit-Latenz, Sub-Cent-Kosten pro Aufruf, native Audio-Eingabe oder selbst gehostete Gewichte innerhalb Ihrer eigenen Infrastruktur benötigen.
Die ehrliche Zusammenfassung: 4.7 ist eine Verbesserung eines bereits starken Modells, keine grundlegende Veränderung. Wer Opus 4.5 oder 4.6 bereits in Produktion nutzt, für den lohnt sich die Migration für die Long-Context-Verbesserungen. Wer ein Frontier-Modell von Grund auf neu auswählt, sollte es gegen GPT-5.1 und Gemini 3 Pro Preview mit eigenen Prompts testen — die richtige Wahl hängt mehr davon ab, was man vom Modell verlangt, als von einer einzigen Benchmark-Zahl.
Testen Sie den Vergleich selbst unter /live-test. Gleicher Prompt, drei Modelle, nebeneinander. Keine Anmeldung.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

