Zum Inhalt
Tier B — Produktion
Läuft in:USErstellt in:United States
Anthropic

Claude Opus 4.7

Tier B — Produktion · 1M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Claude Opus 4.7 ist ein großes Sprachmodell, das von Anthropic entwickelt wurde und die leistungsstärkste Stufe in der Claude 4-Serie des Unternehmens darstellt. Als Opus-Variante ist es als Anthropics leistungsfähigstes Modell positioniert, konzipiert für komplexe Schlussfolgerungsaufgaben, umfangreiche Analysen und Anwendungen, die anspruchsvolles Verstehen und Generieren natürlicher Sprache erfordern. Das Modell unterstützt ein Kontextfenster von 1 Million Token, was es ihm ermöglicht, erhebliche Textmengen zu verarbeiten und dabei kohärent zu bleiben. Das Modell führt standardmäßige Textgenerierungsaufgaben aus, darunter Schreiben, Analyse, Fragen beantworten, Unterstützung beim Programmieren und mehrstufige Unterhaltungen. Sein erweitertes Kontextfenster macht es geeignet für Anwendungen mit umfangreichen Dokumenten, ausgedehnten Code-Repositories oder Unterhaltungen, die erheblichen historischen Kontext erfordern. Claude Opus 4.7 baut auf Anthropics konstitutioneller KI-Trainingsmethodik auf, die Hilfsbereitschaft, Unschädlichkeit und Ehrlichkeit in den Modellausgaben betont. Innerhalb von Anthropics Modellpalette repräsentiert Opus die höchste Leistungsstufe und bietet typischerweise stärkere Fähigkeiten bei Schlussfolgerungen, Mathematik, Programmierung und nuancierten Sprachaufgaben im Vergleich zu den Sonnet- und Haiku-Varianten des Unternehmens. Die numerische Bezeichnung 4.7 zeigt seine Position in Anthropics iterativer Modellentwicklung an und spiegelt Verbesserungen gegenüber früheren Versionen der Claude 4-Generation wider. Das Modell ist konzipiert für Anwendungsfälle, bei denen Ausgabequalität und anspruchsvolle Schlussfolgerungen Vorrang vor Antwortgeschwindigkeit oder Recheneffizienz haben.

Ein-Millionen-Tokens Kontext – Claude Opus 4.7 verarbeitet ganze Bibliotheken in einer einzigen Sitzung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
147798515824236623150005-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Claude Opus 4.7
$5.00 pro 1M Input-Tokens
$25.00 pro 1M Output-Tokens
≈ $0.0080 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$5.00
pro 1M Output-Tokens$25.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— stable

$25.00

output / 1M

— stable

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)127 / avg 211
13425

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1-Million-Token-KontextfensterStärkstes Reasoning der Claude-FamilieGanze Codebasen analysierbarMehrstufige ForschungsaufgabenConstitutional-AI-MethodikMathematik und wissenschaftliches Reasoning

Schwächen

Höchster RessourcenverbrauchHöhere Latenz bei komplexen AnfragenOverkill für einfache Textaufgaben
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 128000
Abschnitt 07

Häufig gestellte Fragen

Das Modell kann extrem lange Dokumente, komplette Codebasen oder sehr ausgedehnte Gesprächsverläufe in einer Sitzung verarbeiten – deutlich mehr als die meisten Konkurrenten.

Für Aufgaben, die maximale Reasoning-Tiefe und extremes Kontextvolumen erfordern, ist Opus 4.7 die Referenz in Anthropics Lineup.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=1

Letzte 30 Tage

100.0%

n=1

Mediane Antwortzeit

40,367ms

n=1

Basierend auf 66 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

1

OK-Antworten (30d)

1

Gesamte Aufrufe (7d)

1

OK-Antworten (7d)

1

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 76 runs
74 correct2 partial0 wrong97% accuracy
2026-06-14

Stability window with no benchmark data or capability changes detected

Claude Opus 4.7 enters this benchmark window with no new performance data available and no detected capability changes from the previous period. The model maintains its existing feature set including tools, vision, JSON mode, PDF input, reasoning, JSON schema, and prompt caching capabilities that were added in earlier updates. Without current benchmark results, it's not possible to assess performance trends, quality metrics, or comparative standing against other models in the field. Users should continue to rely on the previous benchmark window's findings for performance expectations. The absence of new data may indicate either a stable release period without updates or a gap in benchmark coverage. Organizations currently using Claude Opus 4.7 should not expect functional changes during this window. The model's established capabilities remain available, but performance characterization requires waiting for the next benchmark cycle with actual test results. Users evaluating this model should consult historical benchmark data and consider that real-world performance patterns may have shifted since the last measurement period.

Quality

Latency p50

Test runs

0

No benchmark data available Performance trends unknown
Abschnitt 10

Vollständiges Modellprofil

Claude Opus 4.7 — illustration 1
Claude Opus 4.7: der Million-Token-Reasoner von Anthropic

Claude Opus 4.7 ist Anthropics aktuelles Top-of-Stack-Modell. Es bringt ein Ein-Millionen-Token-Kontextfenster mit und dieselbe Text-plus-Vision-Eingabe-Oberfläche, die die Opus-Linie seit 4.x trägt. Preise werden auf dieser Seite nicht genannt. Fähigkeiten schon.

Wer Zeit mit Opus 4.5 oder 4.6 verbracht hat, wird das 4.7-Update vertraut finden, bevor es sich anders anfühlt. Gleicher Ablehnungsstil, gleiche Vorliebe für das Zeigen des eigenen Gedankengangs, gleiche Präferenz für vorsichtige Antworten bei mehrdeutigen Prompts. Was sich verändert hat, liegt größtenteils darunter: besseres Nadel-Retrieval am langen Ende des Kontextfensters, straffere Tool-Call-Formatierung und ein etwas anderer Rhythmus bei langen Texten, den manche Rezensenten als weniger abgesichert beschreiben.

Was das 1M-Kontextfenster wirklich bringt

Eine Million Token reichen für einen vollständigen Quartalsbericht, ein mittelgroßes Monorepo oder die letzten achtzehn Monate des Slack-Verlaufs eines Teams. Das ist die Marketing-Aussage. Die praktische Frage ist, ob das Modell noch auf den Anfang des Puffers achtet, wenn das Ende voll ist.

In unseren eigenen Retrieval-Tests hält Opus 4.7 gut über die 200k-Marke hinaus, wo die vorherige Generation begann, am Anfang platzierte Fakten zu vergessen. Jenseits von etwa 600.000 Token dehnt sich die Latenz aus — Time-to-First-Token steigt merklich, und Streaming-Token-pro-Sekunde sinkt. Detaillierte Zahlen ändern sich jede Iteration; das aktuelle Bild finden Sie auf /benchmarks/speed und /benchmarks/intelligence.

Zwei praktische Konsequenzen: Erstens ist das lange Fenster für Aufgaben wie dokumentübergreifende Sorgfaltsprüfung und vollständige Repo-Code-Reviews wirklich nutzbar — keine bloße Spezifikationszahl. Zweitens sollte man dennoch über Prompt-Caching für wiederholte Abfragen gegen dasselbe große Korpus nachdenken. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig, selbst wenn der API-Aufruf selbst sauber gelingt.

Vision-Eingabe, mit Vorbehalten

Opus 4.7 akzeptiert Bilder neben Text. Es ist gut in den Dingen, in denen die Opus-Linie immer gut war: Dashboard-Screenshots lesen, Tabellen aus PDFs extrahieren, die als Seitenbilder gerendert wurden, Diagramme beschreiben. Bei dichten Diagrammen mit winzigen Achsenbeschriftungen ist es weniger beeindruckend, und handgeschriebene Zahlen werden noch häufig genug falsch gelesen, dass man es nicht in einem Loop ohne menschliche Kontrolle einsetzen sollte.

Für OCR-lastige Workloads, bei denen man hauptsächlich Text aus Bildern will, erledigt ein kleineres vision-fähiges Modell aus der Claude- oder Gemini-Familie die Arbeit oft zu einem Bruchteil der Kosten. Opus 4.7 sollte man für die Fälle aufsparen, in denen das Modell auch über das Gesehene nachdenken soll.

Einordnung in die Modelllandschaft

Opus 4.7 konkurriert mit GPT-5, GPT-5.1 und Gemini 3 Pro Preview an der Spitze des Stacks. Die Wahl zwischen ihnen ist selten ein klarer Sieg auf einer einzigen Achse.

Einige Muster halten sich konstant in unseren Tests. Opus 4.7 ist von den dreien am wahrscheinlichsten, einen grenzwertigen Prompt direkt abzulehnen — was manche Teams wollen und andere frustrierend finden. Es neigt dazu, zu überklären, wenn eine einzeilige Antwort ausreichen würde. Bei Structured-Output-Aufgaben mit einem JSON-Schema folgt es dem Schema zuverlässig, ohne die gelegentlich halluzinierten Extra-Felder früherer Claude-Versionen. Mehrsprachige Performance — insbesondere bei deutschem, französischem und polnischem Verwaltungsprosa — war eine stille Stärke der Opus-Linie, und 4.7 regrediert nicht.

GPT-5.1 fühlt sich bei kurzen Gesprächsrunden noch schneller an. Gemini 3 Pro Preview ist näher an der Parität als die vorherige Generation, aber sein Long-Context-Aufmerksamkeitsmuster ist anders — es performt manchmal besser bei einer vergrabenen Einzeltatsache und schlechter bei der Synthese über viele verstreute.

Für einen kategoriengenauen Vergleich ist das laufende /benchmarks/leaderboard der richtige Ort. Bewertungsmethodik und Datensatzauswahl sind auf /benchmarks/methodology dokumentiert.

Wann es das falsche Werkzeug ist

Code-Generierung unter sich schnell entwickelnden Frameworks. Opus 4.7 ist kompetent, aber konservativ; es schreibt sicheren, ausführlichen Code, während die Codex-artigen Konkurrenten idiomatischen Code schreiben. Für Autocomplete in einer IDE statt für geprüften Output macht der Unterschied etwas aus. Verwenden Sie eine der Modellübersichten auf /usecases/code für einen direkten Vergleich.

Echtzeit-Sprache und Audio. Opus 4.7 hat keine Audio-Eingabe. Schalten Sie ein Transkriptionsmodell vor, wenn Sie Sprache als Eingabe benötigen, oder wählen Sie ein Modell aus der Audio-Familie für den Anfang der Pipeline. Den Entscheidungsbaum finden Sie auf /usecases/voice.

Hochvolumige Klassifizierung zu niedrigen Kosten. Millionen kurzer Prompts durch ein Frontier-Modell zu schicken ist der falsche Aufwand. Claude Haiku 4.5, Gemini 2.5 Flash oder eines der kleineren OVH-gehosteten Llama- oder Mistral-Modelle erledigt das für einen Bruchteil des Budgets ohne merklichen Qualitätsverlust bei einfachen Aufgaben.

Alles, was Fine-Tuning erfordert. Anthropic bietet kein Supervised-Fine-Tuning auf der Opus-Stufe. Wer benutzerdefinierte Gewichte braucht — Domänenvokabular, ins Modell eingebettete Markenstimme — ist bei Open-Weight-Alternativen, nicht bei Opus.

Deployment-Hinweise

Die API ist unkompliziert. REST, Streaming unterstützt, System-Prompts verhalten sich erwartungsgemäß. Tool-Use-Aufrufe kommen sauber zurück und die Schema-Durchsetzung ist solide genug, um Agenten darauf aufzubauen, ohne eine Schicht defensiver Parser zu schreiben.

Regionale Verfügbarkeit ist der Punkt, der europäische Beschaffungsteams trifft. Anthropics Inferenz läuft auf Google Cloud und AWS, und die öffentliche API bietet keinen Regionsauswahlparameter. Enterprise-Verträge können Residenzklauseln aushandeln, aber die Standard-API garantiert keinen ausschließlich EU-basierten Inferenzpfad. Für Teams mit strikten Residenzanforderungen ist eine OVH-gehostete Llama-3.3-70B- oder Mistral-Small-Instanz ein ganz anderes Gespräch; siehe /usecases/local.

Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. API-Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist verfügbar, erfordert aber eine Vertragsverhandlung, keinen Einstellungsschalter.

Wann Sie es einsetzen sollten

Verwenden Sie Claude Opus 4.7, wenn Sie ein Modell benötigen, das:

  • Sorgfältig über sehr lange Eingaben hinweg reasont, ohne den Faden zu verlieren.
  • Strukturierten Output zuverlässig produziert.
  • Europäischsprachige Verwaltungs- und Rechtstexte verarbeitet, ohne Fachbegriffe zu anglisieren.
  • Bei Standardmäßig „ich bin nicht sicher" statt zu selbstbewusster Erfindung tendiert, wenn der Prompt die Antwort nicht enthält.

Übergehen Sie es, wenn Sie Echtzeit-Latenz, Sub-Cent-Kosten pro Aufruf, native Audio-Eingabe oder selbst gehostete Gewichte innerhalb Ihrer eigenen Infrastruktur benötigen.

Die ehrliche Zusammenfassung: 4.7 ist eine Verbesserung eines bereits starken Modells, keine grundlegende Veränderung. Wer Opus 4.5 oder 4.6 bereits in Produktion nutzt, für den lohnt sich die Migration für die Long-Context-Verbesserungen. Wer ein Frontier-Modell von Grund auf neu auswählt, sollte es gegen GPT-5.1 und Gemini 3 Pro Preview mit eigenen Prompts testen — die richtige Wahl hängt mehr davon ab, was man vom Modell verlangt, als von einer einzigen Benchmark-Zahl.

Testen Sie den Vergleich selbst unter /live-test. Gleicher Prompt, drei Modelle, nebeneinander. Keine Anmeldung.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Claude Opus 4.7 — illustration 2Claude Opus 4.7 — illustration 3
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
1574 ms
P95-Latenz
4882 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026