Naar inhoud
Tier A — Frontier
Draait in:USGemaakt in:United States
Anthropic

Claude Opus 4.8

Tier A — Frontier · 1M tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·

Claude Opus 4.8 is Anthropic's zwaarste model voor taken die precisie, lange autonomie en een groot contextvenster vereisen. Met circa vier keer minder kans op onopgemerkte codefouten ten opzichte van Opus 4.7 is het gebouwd voor engineers die nauwkeurigheid boven doorlooptijd stellen.

Tokonomix model-analyse
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency48 runs
687839016094237973150005-2906-09ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

97
Code generatie
100
Creatief
95
Feitelijk
100
Meertaligheid
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Claude Opus 4.8
$5.00 per 1M input-tokens
$25.00 per 1M output-tokens
≈ $0.0080 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$5.00
per 1M output-tokens$25.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— stable

$25.00

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)230 / avg 198
28842

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

4× minder onopgemerkte codefoutenLangere autonome runs zonder afwijkingScherpere zelfbeoordeling van voortgang1 miljoen tokens contextvensterAdaptive thinking voor complexe redeneringIngebouwde vision-ondersteuningRobuuste tool-use voor agentische pipelines

Zwakke punten

Hogere kosten dan Sonnet 4.6 of Haiku 4.5Hogere latency dan lichtere modellenKnowledge-cutoff beperkt actuele kennisGeen extended-thinking modus beschikbaar
Sectie 06

Mogelijkheden

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 128000
Sectie 07

Veelgestelde vragen

Als codebetrouwbaarheid of autonome taaklengte de bottleneck is. Opus 4.8 maakt circa vier keer minder kans op onopgemerkte codefouten en houdt langer koers zonder menselijke bijsturing. Voor kortere of minder foutgevoelige taken biedt Opus 4.7 nog steeds solide resultaten.

Opus 4.8 zet een duidelijke stap voorwaarts voor autonome codeer- en analyseworkflows, maar de hogere prijs ten opzichte van Sonnet 4.6 maakt een bewuste inzetbeslissing noodzakelijk.

Tokonomix redactie
Sectie 08

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-598/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-06-07

Claude Opus 4.8 adds multimodal and tooling capabilities to baseline

Claude Opus 4.8 expands significantly beyond its previous text-only baseline with the addition of vision, PDF input, tool use, JSON modes, reasoning capabilities, and prompt caching. These represent substantial functional enhancements to the model's utility across diverse workflows. The core academic performance established in the baseline appears maintained, though no new benchmark scores are available for this window to confirm performance trends. The additions of structured output formats through json_mode and json_schema address common integration needs, while tool support enables agentic workflows that were previously unavailable. Vision and PDF input capabilities extend the model's applicability to multimodal tasks. Prompt caching should improve efficiency for repetitive workflows with shared context. Users gain a notably more versatile model compared to the baseline, though the absence of updated performance metrics means stability of core capabilities cannot be verified. The breadth of new features positions this release as a major capability expansion rather than an incremental refinement.

Quality

Latency p50

Test runs

0

Vision and PDF support added Tool use capability introduced JSON output modes available Prompt caching efficiency feature
Sectie 09

Volledig modelprofiel

Claude Opus 4.8 van Anthropic

Uitgebracht op 28 mei 2026. Anthropic's nieuwste vlaggenschip. Vergeleken met Opus 4.7: ongeveer 4× minder kans op onopgemerkte code-fouten, scherpere zelfbeoordeling van voortgang, langere autonome runs. Dezelfde invoer/uitvoerprijs als 4.7 ($5/$25 per 1M tokens), 1M-token contextvenster, ondersteuning voor adaptive thinking, geen extended-thinking modus.

Volledige redactionele inhoud volgt — pagina is gevuld vanuit officiële Anthropic-release-data op 29 mei 2026. Benchmark-scores verschijnen automatisch zodra de Tokonomix-testrunners Opus 4.8 opnemen in hun volgende intelligentie- en snelheidscyclus.

Laatste automatische test
9 jun 2026 · 20:03 UTC · Snelheidstest
P50 latency
870 ms
P95 latency
964 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·29 mei 2026