Seviye B — Üretim

Çalıştığı yer:FranceYapıldığı yer:France

Mistral-Small-3.2-24B-Instruct-2506

Seviye B — Üretim

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 27 Mayıs 2026·Son inceleme 30 Temmuz 2026

Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme101 runs

Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

Yaratıcı

Olgusal

100

Çok dilli

Akıl yürütme

Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Mistral-Small-3.2-24B-Instruct-2506

$0.0900 1M giriş token başına

$0.2800 1M çıkış token başına

≈ $0.0001 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$0.0900

1M çıkış token başına$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)529 / avg 1460

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Yetenekler

ownedBy: mistralai

Bölüm 06

Kullanılabilirlik

Bu modelin çağrıldığında ne sıklıkla yanıt verdiği — son 30 gün içindeki gerçek API istekleri ve canlı testler üzerinden ölçülmüştür. Bu kaliteden bağımsızdır: bu sayılar yalnızca modelin yanıt verip vermediğini gösterir, yanıtın ne kadar iyi olduğunu değil.

Son 7 gün

100.0%

n=1,217

Son 30 gün

100.0%

n=6,094

Medyan yanıt süresi

1,912ms

n=6,094

Baz alınan 6,474 ölçüm son 30 gün içinde.

Teknik detaylar

Yalnızca gerçek API çağrıları ve canlı test istekleri sayılır — dahili yoklamalar ve kıyaslama çalıştırmaları hariçtir.

Özel API anahtarıyla (BYOK) yapılan çağrılar hariçtir: bu hatalar anahtara özgüdür, model kesintisinin işareti değildir.

Başarısız çağrılar kalite puanlarına DAHİL EDİLMEZ — kalite yalnızca başarılı yanıtlar üzerinden ölçülür. Kullanılabilirlik ve kalite bağımsız sinyallerdir.

Kaydedilmiş süreye sahip başarılı çağrılarda medyan yanıt süresi (p50). Aykırı değerler medyanı ortalamadan daha az etkiler.

Toplam çağrı (30d)

6,094

OK yanıtlar (30d)

6,094

Toplam çağrı (7d)

1,217

OK yanıtlar (7d)

1,217

Görüntü kalite kontrolü pilotu (2026-06-10)

Geri çağırma

9.4%

n=300

Yanlış alarm

12.1%

n=300

Tam sonuçlar →

Bölüm 07

Tokonomix kıyaslama kararları

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 48 runs

43 correct5 partial0 wrong90% accuracy

● 2026-07-26

Quality drops 10.2 points to 84.6 amid 38% latency increase

Mistral-Small-3.2-24B-Instruct-2506 experienced notable performance degradation in this benchmark window, with overall quality declining from 94.8 to 84.6 points while latency increased by 38% to a median of 6559 milliseconds. The model maintained exceptional multilingual capabilities at 100 points, consistent with previous performance. However, significant shifts occurred in tested categories: coding performance disappeared from evaluation while new reasoning scores emerged strong at 95 points. Creative output remained relatively stable, moving from 85 to 87 points. The most concerning change appears in factual accuracy, which scored only 57 points in the current window, representing a substantial weakness compared to the model's other capabilities. The combination of slower response times and lower quality scores suggests possible infrastructure or configuration issues at the OVH AI Endpoints GRA deployment. Users should expect longer wait times for responses and exercise caution with factual queries, though the model continues to excel at multilingual tasks and demonstrates strong reasoning abilities. The performance decline warrants monitoring in upcoming benchmark windows to determine whether this represents a temporary regression or a sustained shift in model behavior.

Quality

84.6

Latency p50

6,559 ms

Test runs

✗ Quality dropped 10.2 points✗ Latency increased 38%✗ Factual score only 57✓ Multilingual remains perfect 100

Son otomatik test

30 Tem 2026 · 08:04 UTC · Hız testi

P50 gecikme

378 ms

P95 gecikme

378 ms

Hatalar

0 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·30 Temmuz 2026