Seviye B — Üretim

Çalıştığı yer:FranceYapıldığı yer:United States

Meta-Llama-3_3-70B-Instruct

Seviye B — Üretim

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 27 Mayıs 2026·Son inceleme 30 Temmuz 2026

Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme101 runs

Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

Yaratıcı

Olgusal

100

Çok dilli

100

Akıl yürütme

Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Meta-Llama-3_3-70B-Instruct

$0.6700 1M giriş token başına

$0.6700 1M çıkış token başına

≈ $0.0005 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$0.6700

1M çıkış token başına$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)1429 / avg 1555

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Yetenekler

ownedBy: meta-llama

Bölüm 06

Kullanılabilirlik

Bu modelin çağrıldığında ne sıklıkla yanıt verdiği — son 30 gün içindeki gerçek API istekleri ve canlı testler üzerinden ölçülmüştür. Bu kaliteden bağımsızdır: bu sayılar yalnızca modelin yanıt verip vermediğini gösterir, yanıtın ne kadar iyi olduğunu değil.

Son 7 gün

—

Son 30 gün

100.0%

n=82

Medyan yanıt süresi

123,720ms

n=82

Baz alınan 472 ölçüm son 30 gün içinde.

Teknik detaylar

Yalnızca gerçek API çağrıları ve canlı test istekleri sayılır — dahili yoklamalar ve kıyaslama çalıştırmaları hariçtir.

Özel API anahtarıyla (BYOK) yapılan çağrılar hariçtir: bu hatalar anahtara özgüdür, model kesintisinin işareti değildir.

Başarısız çağrılar kalite puanlarına DAHİL EDİLMEZ — kalite yalnızca başarılı yanıtlar üzerinden ölçülür. Kullanılabilirlik ve kalite bağımsız sinyallerdir.

Kaydedilmiş süreye sahip başarılı çağrılarda medyan yanıt süresi (p50). Aykırı değerler medyanı ortalamadan daha az etkiler.

Toplam çağrı (30d)

OK yanıtlar (30d)

Toplam çağrı (7d)

OK yanıtlar (7d)

Bölüm 07

Tokonomix kıyaslama kararları

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 48 runs

44 correct1 partial3 wrong92% accuracy

● 2026-07-26

Quality drops 9.7 points to 88.0, factual performance weakens significantly

Meta-Llama-3.3-70B-Instruct on OVH AI Endpoints shows a concerning quality decline in this benchmark window, falling from 97.7 to 88.0 overall. The most dramatic shift appears in factual performance, which scored just 57 compared to strong performance in other categories. Creative writing maintains its previous excellence at 95, while multilingual capabilities remain perfect at 100. Reasoning performance is now tracked at 100, representing solid logical processing. The coding category, which scored 98 in the previous window, is no longer represented in current results, making direct comparison difficult. Latency remains essentially stable at 7649ms compared to 7683ms previously, indicating no performance regression in response times. This quality drop of nearly 10 points is substantial and warrants attention, particularly given the weak factual accuracy score that pulls down the overall rating. Users relying on this model for fact-based tasks should be aware of this limitation, while those focused on creative, multilingual, or reasoning applications can expect continued strong performance. The consistency in test runs at 5 samples suggests these results are preliminary but indicative of current capabilities.

Quality

88.0

Latency p50

7,649 ms

Test runs

✗ Quality dropped 9.7 points✗ Factual performance weak at 57✓ Reasoning excellence at 100✓ Latency remains stable

Son otomatik test

30 Tem 2026 · 08:04 UTC · Hız testi

P50 gecikme

140 ms

P95 gecikme

1892 ms

Hatalar

0 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·30 Temmuz 2026