İçeriğe geç
Seviye C — Uzman
Çalıştığı yer:USYapıldığı yer:United States
Anthropic

Claude Sonnet 4

Seviye C — Uzman · 200K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Claude Sonnet 4, Anthropic tarafından geliştirilen ve 2024 sonunda Claude 3.5 model ailesinin bir parçası olarak yayımlanan büyük bir dil modelidir. Genel metin üretim görevlerinde güçlü performans ile verimli kaynak kullanımını dengelemek üzere tasarlanmış orta seviye bir sunumu temsil eder. Model, 200.000 token'lık bir bağlam penceresine sahip olup uzun belgeler, uzatılmış sohbetler ve karmaşık çok turlu etkileşimler boyunca tutarlılığı korumasını ve işlemesini sağlar. Bu model; içerik üretimi, analiz, özetleme, soru yanıtlama ve konuşma uygulamaları dahil olmak üzere standart metin üretim iş yükleri için tasarlanmıştır. Kodlama görevleri, matematiksel akıl yürütme ve çoklu alan bilgi sentezi konularında yetkinlik gösterir. Claude Sonnet 4 hem metin girişini hem de çıkışını işler; standart yapılandırmasında görsel veya çok modlu girişler için yerel destek sunmaz. Anthropic'in model yelpazesinde Claude Sonnet 4, hesaplama açısından daha yoğun olan Opus katmanı ile daha hafif Haiku varyantları arasında konumlanır. Amiral gemisi modellerin maksimum performansını gerektirmeden güvenilir dil modeli yetenekleri arayan geliştiriciler ve kuruluşlar için genel amaçlı bir seçenek olarak konumlandırılmıştır. Model, yanıtlarda yardımseverlik, zararsızlık ve dürüstlüğü ön plana çıkaran Anthropic'in Constitutional AI eğitim metodolojisini uygular. Sonnet serisindeki önceki sürümlerin ardılı olarak, çeşitli görev türlerinde akıl yürütme yetenekleri, talimat takibi ve çıktı kalitesinde iyileştirmeler getirir.

Anthropic'in güvenlik odaklı mimarisi, bu modeli karmaşık görevlerde güvenilir kılıyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme97 runs
1553065597488841179305-2206-15ms
Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

100
Kod üretimi
99
Çok dilli
100
Akıl yürütme
Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Claude Sonnet 4
$3.00 1M giriş token başına
$15.00 1M çıkış token başına
≈ $0.0048 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$3.00
1M çıkış token başına$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)36 / avg 224
127220

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

200K token uzun bağlamConstitutional AI güvenlik katmanıKarmaşık talimat takibiPerformans ve hız dengesiÜretim ortamı güvenilirliğiMetin üretimi ve özetleme

Zayıf yönler

İnternet erişimi bulunmuyorGörsel işleme desteği yokBilgi kesim tarihi sonrası veri yok
Bölüm 06

Yetenekler

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Bölüm 07

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

Constitutional AI eğitim yöntemi zararlı çıktıları minimize eder ve uzun vadeli kullanım güvenliğini artırır.

Tokonomix benchmark özeti
Bölüm 08

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 09

Tokonomix kıyaslama kararları

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 76 runs
72 correct3 partial1 wrong95% accuracy
2026-06-14

Claude Sonnet 4 maintains perfect scores but latency increases 24%

Claude Sonnet 4 continues to demonstrate exceptional performance with a near-perfect overall quality score of 99.6, up from 96.6 in the previous window. The model maintains its perfect 100 score in coding and sustains a strong 99 in multilingual tasks, showing consistency in core technical capabilities. Reasoning performance now registers at a perfect 100, representing a notable area of strength in this benchmark window. However, this performance comes with a trade-off in speed. The median latency has increased from 6331 ms to 7867 ms, representing a 24% slowdown. This suggests potential changes to model architecture or inference processes that prioritize output quality over response time. The benchmark testing methodology changed between windows, with different categories assessed. The current window evaluated reasoning as a distinct category, while the previous window separately measured creative and factual question performance. This shift in testing approach makes direct category comparisons challenging, though the overall trajectory shows quality improvements alongside slower response times. Users requiring maximum quality should find these results encouraging, while those prioritizing speed may need to evaluate whether the latency increase affects their use cases.

Quality

99.6

Latency p50

7,867 ms

Test runs

5

Quality score improved to 99.6 Perfect reasoning performance achieved Latency increased 24% Response time now 7.9 seconds
Bölüm 10

Tam model profili

Claude Sonnet 4 — illustration 1
Claude Sonnet 4: 4.x serisinin ilk orta katmanı

Not — eski anlık görüntü. Claude Sonnet 4 (claude-sonnet-4-20250514), Mayıs 2025 sürümüdür. Bugün orta katman Claude değerlendiren prodüksiyon ekipleri Sonnet 4.5 ve Sonnet 4.6 ile karşılaştırma yapmalı. Bu sayfa, geçiş planlaması ve tarihsel başvuru için burada.

Claude Sonnet 4, 4.x Sonnet serisini açan Mayıs 2025 orta katman sürümüdür. İki yüz bin token context window. Metin ve görüntü girişi. Piyasaya çıktığında konumlaması açıktı — Opus akıl yürütme kalitesi, anlamlı ölçüde daha düşük maliyet ve daha hızlı yanıt süreleri.

Bir yıl sonra tablo değişti. Sonnet 4.5 ve 4.6, prodüksiyon ekiplerinin çoğunun yerleştiği anlık görüntüler oldu. Sonnet 4.0 hâlâ çalışıyor, henüz yükseltme yapmamış ekipler için trafik taşımaya devam ediyor; ama artık yeni bir inşaat için doğru başlangıç noktası değil.

Neden hâlâ önemli

Birkaç durum eski Sonnet anlık görüntülerini aktif kullanımda tutuyor:

  • Yeni yetenekten çok kararlı model davranışının önemli olduğu sabitlenmiş değerlendirme takımları.
  • Daha yeni anlık görüntüye karşı henüz yeniden doğrulanmamış denetlenmiş uyumluluk işlem hatları.
  • Eski Sonnet fiyatlandırma katmanlarının izin verdiği sınırda maliyet odaklı iş yükleri.
  • Sonnet 4.x evrimini açıkça karşılaştıran ve 4.0'ı taban çizgisi olarak gerektiren araştırmalar.

Bu durumların hiçbirine girmiyorsanız, bu sayfa arka plan okuma.

İyi yaptığı şeyler

Orta katman önerme gerçekti. Sonnet 4.0, Opus serisini tanımlayan akıl yürütme davranışının büyük bölümünü korurken çoğu iş yükünde Opus 4.0'dan anlamlı ölçüde daha hızlıydı. Yapılandırılmış çıktı uyumu katmanı için iyiydi. Tool-use çağrıları temiz payload döndürüyordu. Avrupalı dillerde idari düzyazı özenle işlendi — Almanca hukuki deyim, Fransızca idari ifade, Hollanda hükümeti kalıpları İngilizce biçimli çıktıya çökmek yerine kendi dilsel kayıtlarında kaldı.

Sonnet 4.0'daki görüntü girişi standart belge okuma görevleri için sağlamdı. Pano ekran görüntüleri, taranmış formlar, sayfa görseli olarak işlenmiş PDF'ler. Model gördüklerini yalnızca aktarmak yerine üzerine akıl yürüttü.

Kötü yaptığı şeyler

Uzun context tutma çıkışta vasat düzeydeydi ve Anthropic'in sonra yayımladığı her Sonnet anlık görüntüsünün gerisinde kaldı. 200k pencere gerçek, ama dikkat kalitesi yaklaşık 100k token girişinin ötesinde zayıflıyor. 4.x serisindeki yeni anlık görüntüler bu boşluğun büyük bölümünü kapattı.

Kod üretimi yeterliydi ama muhafazakârdı. Model bazı rakiplerin deyimsel çıktı yazdığı yerde ayrıntılı, savunmacı tipli kod yazdı. IDE uyumlu çalışmalar için /usecases/code sayfasındaki model anketi alternatifleri kapsıyor.

Akış iş yüklerinde gecikme kabul edilebilirdi ama olağanüstü değil. Sonnet 4.5 ve 4.6 bunu kısmen kapattı. Gemini 2.5 Flash ve benzer kategori-A rakipler, kısa prompt'larda ilk token süresinde öne geçti.

Bugün ne durumda

Daha yeni Anthropic Sonnet anlık görüntülerine — 4.5 ve 4.6 — karşı, versiyon 4.0, /benchmarks/intelligence sayfasında izlenen her kategoride geride kalıyor. Sürüm başına iyileştirmeler dramatik değil, ama biriküyor. İki anlık görüntü sonrasında fark anlamlı.

2026 ortası itibarıyla diğer orta katman alternatiflere karşı: GPT-5 orta katman varyantları ve Gemini 2.5 Pro, yayımlanmış benchmark kategorilerinin büyük bölümünde Sonnet 4.0'ı geride bırakıyor. 4.0 çıktığında bu fark yazı tura mesafesindeydi. Amiral gemisi ilerledi.

2026'da sıfırdan Sonnet seçiyorsanız, Sonnet 4.5 daha güvenli başlangıç noktası. En güncel iyileştirmeler için Sonnet 4.6. Kategoriler genelindeki tam tablo /benchmarks/leaderboard sayfasında.

Geçiş yolları

Standart yükseltmeler:

  • Aynı context penceresi, benzer davranış: Sonnet 4.5. Prodüksiyon ekipleri, kısa bir gölge trafik çalışmasının ardından çoğu iş yükünde birebir uyumluluk bildiriyor.
  • En güncel iyileştirmeler: Sonnet 4.6. Tool-use cilası ve şema uyumu daha sıkı.
  • Daha büyük context penceresi: Sonnet 4.6, milyon token penceresiyle geliyor. Sonnet iş yükleri için operasyonel profilde en büyük sıçrama.

Dürüst kural: Genel benchmark'larda ölçülen amiral gemisi ve orta katman farkları, nadiren kendi prompt'larınızda gördüklerinizle örtüşür. Taahhüt vermeden önce adayı kendi değerlendirme setinizde çalıştırın.

Dağıtım notları

Standart Anthropic API. REST. Streaming. System prompt'lar beklenen biçimde davranıyor. Tool-use, savunmacı parsing yazmaksızın ajan inşaatına yetecek kadar güvenilir.

AB veri yerleşimi yinelenen çıkmaz nokta. Anthropic'in inference'ı AWS ve Google Cloud üzerinde çalışıyor; public API, Sonnet 4.0 veya diğer herhangi bir Claude modeli için bölge seçim parametresi sunmuyor. Hazır kullanımda yalnızca AB inference yolu garantilenmiyor. Kurumsal sözleşmeler yerleşim maddeleri müzakere edebilir. Zorunlu yerleşim kısıtlamaları altındaki ekipler /usecases/local sayfasındaki OVH-hosted açık ağırlıklı ankete bakmalı.

Günlükler kötüye kullanım izleme için otuz gün saklanıyor. Girişler opt-in olmadıkça eğitimde kullanılmıyor. Sıfır saklama bir ayar değil, sözleşme müzakeresi.

4.0'da kalmak doğru yanıt olduğunda

Denetim yükü ekiplerin en yaygın kalma nedeni. Belgelenmiş model davranışı olan düzenlenmiş bir işlem hattı, bir yapılandırma değişikliğiyle geçişe hazır değil. Yeniden denetim, yeniden doğrulama, muhtemelen yeniden sertifikasyon — bu çalışmanın maliyeti bir çıtayı aşmak zorunda.

Sabitlenmiş anlık görüntü araştırması diğer yaygın durum. Sonnet serisinin evrimini karşılaştıran çalışmalar 4.0'ı referans olarak gerektiriyor. Anthropic, tarihli anlık görüntüleri tam da bu nedenle kullanılabilir tutuyor.

Yeni inşaatlar için bu durumların hiçbiri geçerli değil ve güncel bir Sonnet revizyonu doğru başlangıç noktası.

Tercih kriteri

Claude Sonnet 4'e şu durumlarda uzanın:

  • Üzerine kurulu mevcut denetlenmiş bir entegrasyonunuz varsa.
  • Karşılaştırma veya araştırma için sabitlenmiş bir anlık görüntüye ihtiyacınız olduğunda.
  • Güncel bir Sonnet revizyonuna geçiş gerçekten henüz gerekçelendirilmediyse.

Başka bir şey seçin:

  • 2026'da sıfırdan model seçiyorsanız.
  • İş yükü derinlikte uzun context dikkatine bağımlıysa.
  • Gecikme, maliyet veya daha güçlü kod üretimi, orijinal Sonnet 4 davranışından daha önemliyse.
  • Metin ve görüntü dışında herhangi bir şeye ihtiyacınız varsa.

Sonnet 4'ü /live-test sayfasında günümüz alternatifleriyle deneyin. Aynı prompt, birden fazla model, yan yana. Farklar doğrudan karşılaştırmada en net görünüyor.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Claude Sonnet 4 — illustration 2
Son otomatik test
15 Haz 2026 · 08:00 UTC · Hız testi
P50 gecikme
5563 ms
P95 gecikme
6642 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026