Aller au contenu
Fonctionne en :FranceCréé en :United States
OVH AI Endpoints (GRA)

Meta-Llama-3_3-70B-Instruct

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9573 runs
90794315795236483150005-2806-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

99
Génération de code
97
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Meta-Llama-3_3-70B-Instruct
$0.6700 par 1M de tokens d'entrée
$0.6700 par 1M de tokens de sortie
≈ $0.0005 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.6700
par 1M de tokens de sortie$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1575 / avg 1569
217930

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: meta-llama
Section 06

Disponibilité

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=8

30 derniers jours

100.0%

n=8

Temps de réponse médian

7,284ms

n=8

Basé sur 76 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

8

Réponses OK (30d)

8

Total des appels (7d)

8

Réponses OK (7d)

8

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 8 runs
7 correct0 partial1 wrong88% accuracy
2026-06-14

Meta-Llama-3_3-70B-Instruct maintains 97.0 quality with stable performance

Meta-Llama-3_3-70B-Instruct continues to deliver consistent performance in its second benchmark window, maintaining its overall quality score of 97.0 out of 100. The model shows no measurable changes in quality metrics, demonstrating reliability across evaluation cycles. Latency remains at the p50 mark of 10556 milliseconds, indicating stable response times for this 70B parameter model. The multilingual category score holds steady at 97, confirming the model's continued strength in handling multiple languages effectively. With only one test run in the current window matching the previous baseline, the consistency suggests predictable behavior for production deployments. Users can expect the same high-quality outputs and performance characteristics observed in the initial benchmark period. The lack of variation between windows indicates a mature, stable offering suitable for applications requiring dependable language model performance. OVH AI Endpoints in the GRA region continues to provide reliable hosting for this model without performance degradation.

Quality

Latency p50

Test runs

0

Quality score stable at 97.0 Consistent multilingual performance
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
127 ms
Latence P95
172 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·15 juin 2026