Naar inhoud
Draait in:FranceGemaakt in:United States
OVH AI Endpoints (GRA)

Meta-Llama-3_3-70B-Instruct

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency73 runs
90794315795236483150005-2806-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

99
Code generatie
97
Meertaligheid
100
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Meta-Llama-3_3-70B-Instruct
$0.6700 per 1M input-tokens
$0.6700 per 1M output-tokens
≈ $0.0005 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.6700
per 1M output-tokens$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1575 / avg 1569
217930

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Mogelijkheden

ownedBy: meta-llama
Sectie 06

Beschikbaarheid

Beschikbaarheid

Hoe vaak dit model antwoordt als we het aanroepen — gemeten over echte API-aanvragen en live-tests in de afgelopen 30 dagen. Dit staat los van kwaliteit: deze cijfers laten alleen zien of het model reageert, niet hoe goed het antwoord is.

Afgelopen 7 dagen

100.0%

n=8

Afgelopen 30 dagen

100.0%

n=8

Mediane responstijd

7,284ms

n=8

Gebaseerd op 76 metingen in de afgelopen 30 dagen.

Technische details

Alleen echte API-aanroepen en live-testverzoeken tellen mee — interne probes en benchmarkruns zijn uitgesloten.

Aanroepen met een eigen API-sleutel (BYOK) zijn uitgesloten: die fouten zijn sleutelspecifiek en geen teken van modelneergang.

Mislukte aanroepen worden NIET meegeteld in kwaliteitsscores — kwaliteit wordt gemeten op geslaagde responses. Beschikbaarheid en kwaliteit zijn onafhankelijke signalen.

Mediane responstijd (p50) over geslaagde aanroepen met een vastgelegde duur. Uitschieters trekken de mediaan minder dan het gemiddelde.

Totaal aanroepen (30d)

8

OK-reacties (30d)

8

Totaal aanroepen (7d)

8

OK-reacties (7d)

8

Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 8 runs
7 correct0 partial1 wrong88% accuracy
2026-06-14

Meta-Llama-3_3-70B-Instruct maintains 97.0 quality with stable performance

Meta-Llama-3_3-70B-Instruct continues to deliver consistent performance in its second benchmark window, maintaining its overall quality score of 97.0 out of 100. The model shows no measurable changes in quality metrics, demonstrating reliability across evaluation cycles. Latency remains at the p50 mark of 10556 milliseconds, indicating stable response times for this 70B parameter model. The multilingual category score holds steady at 97, confirming the model's continued strength in handling multiple languages effectively. With only one test run in the current window matching the previous baseline, the consistency suggests predictable behavior for production deployments. Users can expect the same high-quality outputs and performance characteristics observed in the initial benchmark period. The lack of variation between windows indicates a mature, stable offering suitable for applications requiring dependable language model performance. OVH AI Endpoints in the GRA region continues to provide reliable hosting for this model without performance degradation.

Quality

Latency p50

Test runs

0

Quality score stable at 97.0 Consistent multilingual performance
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
127 ms
P95 latency
172 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·15 juni 2026