İçeriğe geç
Çalıştığı yer:FranceYapıldığı yer:France
OVH AI Endpoints (GRA)

Mistral-Small-3.2-24B-Instruct-2506

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme73 runs
642561505775541005005-2806-15ms
Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

100
Kod üretimi
99
Çok dilli
100
Akıl yürütme
Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Mistral-Small-3.2-24B-Instruct-2506
$0.0900 1M giriş token başına
$0.2800 1M çıkış token başına
≈ $0.0001 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.0900
1M çıkış token başına$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)1667 / avg 1721
3056461

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Yetenekler

ownedBy: mistralai
Bölüm 06

Kullanılabilirlik

Kullanılabilirlik

Bu modelin çağrıldığında ne sıklıkla yanıt verdiği — son 30 gün içindeki gerçek API istekleri ve canlı testler üzerinden ölçülmüştür. Bu kaliteden bağımsızdır: bu sayılar yalnızca modelin yanıt verip vermediğini gösterir, yanıtın ne kadar iyi olduğunu değil.

Son 7 gün

100.0%

n=8

Son 30 gün

100.0%

n=8

Medyan yanıt süresi

6,342ms

n=8

Baz alınan 76 ölçüm son 30 gün içinde.

Teknik detaylar

Yalnızca gerçek API çağrıları ve canlı test istekleri sayılır — dahili yoklamalar ve kıyaslama çalıştırmaları hariçtir.

Özel API anahtarıyla (BYOK) yapılan çağrılar hariçtir: bu hatalar anahtara özgüdür, model kesintisinin işareti değildir.

Başarısız çağrılar kalite puanlarına DAHİL EDİLMEZ — kalite yalnızca başarılı yanıtlar üzerinden ölçülür. Kullanılabilirlik ve kalite bağımsız sinyallerdir.

Kaydedilmiş süreye sahip başarılı çağrılarda medyan yanıt süresi (p50). Aykırı değerler medyanı ortalamadan daha az etkiler.

Toplam çağrı (30d)

8

OK yanıtlar (30d)

8

Toplam çağrı (7d)

8

OK yanıtlar (7d)

8

Görüntü kalite kontrolü pilotu (2026-06-10)

Geri çağırma

9.4%

n=300

Yanlış alarm

12.1%

n=300

Bölüm 07

Tokonomix kıyaslama kararları

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-588/100 · 8 runs
6 correct2 partial0 wrong75% accuracy
2026-06-14

Stable performance maintained with expanded category testing

Mistral-Small-3.2-24B-Instruct-2506 continues to demonstrate exceptional performance in this benchmark window, maintaining its perfect quality score of 100.0 across expanded testing. The model now shows consistently high performance across multiple categories including coding, creative writing, instruction following, and multilingual tasks, all scoring at the maximum level. This represents a broader evaluation than the previous window which focused solely on multilingual capabilities. Latency characteristics show notable improvement, with the median response time dropping from 5689ms to 926ms, representing an approximately 84% reduction in typical response times. The 95th percentile latency of 1180ms indicates consistent performance with minimal variation. The model demonstrates particularly strong results in mathematical reasoning and structured data handling, areas that were not evaluated in the baseline window. With 20 test runs completed in this window compared to the single baseline run, the results provide substantially more statistical confidence. Users can expect reliable performance across diverse workloads, from technical programming tasks to creative content generation, with significantly faster response times than initially observed.

Quality

Latency p50

Test runs

0

84% latency reduction achieved Expanded category coverage maintained Perfect scores across all categories 20x more test runs completed
Son otomatik test
15 Haz 2026 · 08:00 UTC · Hız testi
P50 gecikme
120 ms
P95 gecikme
158 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·15 Haziran 2026