Aller au contenu
Tier A — Frontier
Fonctionne en :USCréé en :United States
Anthropic

Claude Opus 4.8

Tier A — Frontier · 1M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·

Opus 4.8 marque une étape concrète dans la fiabilité des agents autonomes : moins d'erreurs de code laissées passer, des exécutions plus longues sans dérive, et un contexte d'un million de tokens qui change la portée des tâches traitables en une seule passe. C'est le modèle phare d'Anthropic au 28 mai 2026, conçu pour les équipes qui confient à l'IA des missions complexes et de longue durée.

Analyse modèle Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9548 runs
687839016094237973150005-2906-09ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

97
Génération de code
100
Créatif
95
Factuel
100
Multilingue
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Claude Opus 4.8
$5.00 par 1M de tokens d'entrée
$25.00 par 1M de tokens de sortie
≈ $0.0080 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$5.00
par 1M de tokens de sortie$25.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— stable

$25.00

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)230 / avg 198
28842

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

4× moins de défauts de code manquésJugement plus net sur sa propre progressionExécutions autonomes plus longues et stablesContexte de 1 000 000 tokensAdaptive thinking intégréVision et analyse d'images nativesTool-use robuste pour agents complexes

Faiblesses

Coût élevé vs Sonnet 4.6 ou Haiku 4.5Latence supérieure aux modèles plus légersCutoff de connaissance : mai 2026Pas de mode extended thinking disponible
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 128000
Section 07

Questions fréquentes

Pour les revues de code critiques ou les pipelines d'agents autonomes, oui : la réduction d'environ 4× des défauts non détectés peut éviter des incidents coûteux. Pour de la complétion de code rapide ou des tâches répétitives à faible enjeu, Sonnet 4.6 offre un meilleur rapport performance/coût.

Opus 4.8 est le bon choix pour les flux de travail autonomes exigeants où la qualité du code et la durée d'exécution comptent davantage que la vitesse brute ou le coût par token. Pour les tâches courtes et répétitives, Sonnet 4.6 ou Haiku 4.5 restent plus économiques.

Rédaction Tokonomix
Section 08

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-598/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-06-07

Claude Opus 4.8 adds multimodal and tooling capabilities to baseline

Claude Opus 4.8 expands significantly beyond its previous text-only baseline with the addition of vision, PDF input, tool use, JSON modes, reasoning capabilities, and prompt caching. These represent substantial functional enhancements to the model's utility across diverse workflows. The core academic performance established in the baseline appears maintained, though no new benchmark scores are available for this window to confirm performance trends. The additions of structured output formats through json_mode and json_schema address common integration needs, while tool support enables agentic workflows that were previously unavailable. Vision and PDF input capabilities extend the model's applicability to multimodal tasks. Prompt caching should improve efficiency for repetitive workflows with shared context. Users gain a notably more versatile model compared to the baseline, though the absence of updated performance metrics means stability of core capabilities cannot be verified. The breadth of new features positions this release as a major capability expansion rather than an incremental refinement.

Quality

Latency p50

Test runs

0

Vision and PDF support added Tool use capability introduced JSON output modes available Prompt caching efficiency feature
Section 09

Profil complet du modèle

Claude Opus 4.8 par Anthropic

Sorti le 28 mai 2026. Nouveau modèle phare. 4× moins susceptible de laisser passer des défauts de code par rapport à Opus 4.7. Même tarification, contexte 1M.

Dernier test automatisé
9 juin 2026 · 20:03 UTC · Benchmark de vitesse
Latence P50
870 ms
Latence P95
964 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·29 mai 2026