Meta-Llama-3_3-70B-Instruct
Analyse de vitesse
Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.
Scores de qualité
Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.
Historique des tarifs
Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$0.6700
input / 1M
— stable
$0.6700
output / 1M
— stable
Tokens par seconde
Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.
Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.
Capacités
Disponibilité
Disponibilité
La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.
7 derniers jours
100.0%
n=8
30 derniers jours
100.0%
n=8
Temps de réponse médian
7,284ms
n=8
Basé sur 76 mesures au cours des 30 derniers jours.
Détails techniques
Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.
Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.
Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.
Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.
Total des appels (30d)
8
Réponses OK (30d)
8
Total des appels (7d)
8
Réponses OK (7d)
8
Verdicts benchmark Tokonomix
Meta-Llama-3_3-70B-Instruct maintains 97.0 quality with stable performance
Meta-Llama-3_3-70B-Instruct continues to deliver consistent performance in its second benchmark window, maintaining its overall quality score of 97.0 out of 100. The model shows no measurable changes in quality metrics, demonstrating reliability across evaluation cycles. Latency remains at the p50 mark of 10556 milliseconds, indicating stable response times for this 70B parameter model. The multilingual category score holds steady at 97, confirming the model's continued strength in handling multiple languages effectively. With only one test run in the current window matching the previous baseline, the consistency suggests predictable behavior for production deployments. Users can expect the same high-quality outputs and performance characteristics observed in the initial benchmark period. The lack of variation between windows indicates a mature, stable offering suitable for applications requiring dependable language model performance. OVH AI Endpoints in the GRA region continues to provide reliable hosting for this model without performance degradation.
Quality
—
Latency p50
—
Test runs
0
Meta-Llama-3_3-70B-Instruct
par OVH AI Endpoints (GRA)
- Fenêtre de contexte
- — tokens
- Prix d'entrée
- $0.6700 / 1M
- Prix de sortie
- $0.6700 / 1M
- Tier
- —
- Modalité
- Texte
- Type d'API
- REST · streaming
- Exécutions benchmark
- 91
Plus de OVH AI Endpoints (GRA)