Anthropic Claude Opus 4.8
28 Mayıs 2026 yayımlandı. Yeni amiral gemisi model. Kod hatalarının gözden kaçma olasılığı 4× daha düşük.
Claude Opus 4.8, Anthropic'in otonom yazılım geliştirme ve karmaşık çok adımlı görevler için tasarladığı amiral gemisi modelidir. Opus 4.7 üzerine inşa edilmiş ancak kod doğruluğu ve öz-değerlendirme kapasitesi açısından belirgin biçimde ileriye taşınmıştır.
— Tokonomix model analizi
Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.
Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.
Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$5.00
input / 1M
— stable
$25.00
output / 1M
— stable
Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.
P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.
Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.
Kod doğruluğu ve uzun süreli otonom yürütme kritik önceliklerse Opus 4.8, Anthropic portföyünün en güçlü seçeneğidir; bütçe veya gecikme kısıtı varsa Sonnet 4.6 değerlendirilebilir.
— Tokonomix editöryel ekibi
Claude Opus 4.8 expands significantly beyond its previous text-only baseline with the addition of vision, PDF input, tool use, JSON modes, reasoning capabilities, and prompt caching. These represent substantial functional enhancements to the model's utility across diverse workflows. The core academic performance established in the baseline appears maintained, though no new benchmark scores are available for this window to confirm performance trends. The additions of structured output formats through json_mode and json_schema address common integration needs, while tool support enables agentic workflows that were previously unavailable. Vision and PDF input capabilities extend the model's applicability to multimodal tasks. Prompt caching should improve efficiency for repetitive workflows with shared context. Users gain a notably more versatile model compared to the baseline, though the absence of updated performance metrics means stability of core capabilities cannot be verified. The breadth of new features positions this release as a major capability expansion rather than an incremental refinement.
Quality
—
Latency p50
—
Test runs
0
28 Mayıs 2026 yayımlandı. Yeni amiral gemisi model. Kod hatalarının gözden kaçma olasılığı 4× daha düşük.
Anthropic tarafından
Anthropic tarafından daha fazla
Benzer modeller