Tier B — Produktion

Läuft in:FranceErstellt in:United States

Meta-Llama-3_3-70B-Instruct

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 30. Juli 2026

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz102 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Meta-Llama-3_3-70B-Instruct

$0.6700 pro 1M Input-Tokens

$0.6700 pro 1M Output-Tokens

≈ $0.0005 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.6700

pro 1M Output-Tokens$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1504 / avg 1554

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: meta-llama

Abschnitt 06

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=82

Mediane Antwortzeit

123,720ms

n=82

Basierend auf 472 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 48 runs

44 correct1 partial3 wrong92% accuracy

● 2026-07-26

Quality drops 9.7 points to 88.0, factual performance weakens significantly

Meta-Llama-3.3-70B-Instruct on OVH AI Endpoints shows a concerning quality decline in this benchmark window, falling from 97.7 to 88.0 overall. The most dramatic shift appears in factual performance, which scored just 57 compared to strong performance in other categories. Creative writing maintains its previous excellence at 95, while multilingual capabilities remain perfect at 100. Reasoning performance is now tracked at 100, representing solid logical processing. The coding category, which scored 98 in the previous window, is no longer represented in current results, making direct comparison difficult. Latency remains essentially stable at 7649ms compared to 7683ms previously, indicating no performance regression in response times. This quality drop of nearly 10 points is substantial and warrants attention, particularly given the weak factual accuracy score that pulls down the overall rating. Users relying on this model for fact-based tasks should be aware of this limitation, while those focused on creative, multilingual, or reasoning applications can expect continued strong performance. The consistency in test runs at 5 samples suggests these results are preliminary but indicative of current capabilities.

Quality

88.0

Latency p50

7,649 ms

Test runs

✗ Quality dropped 9.7 points✗ Factual performance weak at 57✓ Reasoning excellence at 100✓ Latency remains stable

Letzter automatisierter Test

30. Juli 2026 · 14:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

133 ms

P95-Latenz

134 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·30. Juli 2026