Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:United States
OVH AI Endpoints (GRA)

Meta-Llama-3_3-70B-Instruct

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Meta-Llama-3_3-70B-Instruct ist ein großes Sprachmodell, das von Meta AI entwickelt wurde und Teil der Llama 3.3-Reihe ist. Das Modell verfügt über 70 Milliarden Parameter und ist speziell für Instruction-Following-Aufgaben optimiert, wodurch es sich für Anwendungen eignet, die ein präzises Verständnis und die Ausführung von Nutzeranweisungen erfordern. Es stellt eine Weiterentwicklung in Metas Open-Source-Strategie für Sprachmodelle dar und bietet Fähigkeiten, die mit größeren Modellen vergleichbar sind, bei gleichzeitig hoher Recheneffizienz. Das Modell ist für allgemeine Textgenerierung, Fragebeantwortung, Content-Erstellung und konversationelle KI-Anwendungen konzipiert. Das Modell wird über OVH AI Endpoints bereitgestellt und im Rechenzentrum GRA (Gravelines, Frankreich) von OVH gehostet. OVH stellt über seinen Endpoints-Dienst Infrastrukturzugriff auf verschiedene KI-Modelle bereit, sodass Entwickler große Sprachmodelle integrieren können, ohne die zugrunde liegende Hardware verwalten zu müssen. Die spezifische Kontextfenstergröße dieser Bereitstellung wurde nicht offengelegt, wobei Modelle der Llama 3-Reihe in der Regel erweiterte Kontextlängen unterstützen, die für die meisten produktiven Anwendungsfälle geeignet sind. Meta-Llama-3_3-70B-Instruct positioniert sich hinsichtlich Modellgröße und Leistungsfähigkeit im mittleren bis oberen Segment. Mit 70 Milliarden Parametern ordnet es sich zwischen kleineren, schnelleren Modellen für ressourcenbeschränkte Umgebungen und größeren Modellen ein, die möglicherweise verbesserte Reasoning-Fähigkeiten zu höheren Rechenanforderungen bieten. Die Instruction-Tuned-Variante weist auf ein gezieltes Fine-Tuning hin, das die Fähigkeit des Modells verbessert, komplexen Prompts zu folgen und kohärente Mehrfachdialoge zu führen.

Meta Llama-3.3-70B-Instruct via OVH: 70 Milliarden Parameter Instruction-Tuning mit europäischer Infrastruktur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
88794115794236473150005-1105-27ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Meta-Llama-3_3-70B-Instruct
$0.1000 pro 1M Input-Tokens
$0.3000 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— no change

$0.3000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1905 / avg 1680
22455

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

70-Milliarden-Parameter-KapazitätPräzises Instruction-FollowingEuropäische DatenresidenzOpen-Source-BasisMehrsprachige FähigkeitenOVH API-Integration

Schwächen

Kontextgröße nicht dokumentiertHöhere Ressourcen als 8B-VarianteUnter proprietären Flaggschiffmodellen
Abschnitt 05

Fähigkeiten

ownedBy: meta-llama
Abschnitt 06

Häufig gestellte Fragen

Llama-3.3 ist eine iterative Verbesserung mit optimiertem Instruction-Following und verbesserter Gesamtleistung.

Für anspruchsvolle NLP-Aufgaben mit europäischer Datenresidenz ist das 70B-Modell Metas stärkstes Angebot auf OVH.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-599/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Meta-Llama-3.3-70B-Instruct etabliert Baseline-Performance

Meta-Llama-3.3-70B-Instruct von OVH AI Endpoints liefert in seinem ersten Benchmark-Fenster solide Ergebnisse über zentrale Metriken hinweg. Das Modell zeigt belastbare Fähigkeiten im Sprachverständnis und in der Textgenerierung und verarbeitet Anfragen mit konstantem Durchsatz. Die Antwortqualität weist eine gute Kohärenz und Relevanz zu den Prompts auf, was es für verschiedene Aufgaben im Bereich natürlicher Sprache eignet, darunter Content-Erstellung, Fragebeantwortung und dialogbasierte Anwendungen. Die Latenzwerte deuten auf eine zuverlässige Performance für produktive Workloads hin, dennoch sollten Nutzer die tatsächlichen Antwortzeiten unter ihren spezifischen Bedingungen beobachten. Das Modell verarbeitet komplexe Anweisungen weitgehend zuverlässig, wobei in stark nuancierten Szenarien gelegentlich Inkonsistenzen auftreten können. Die Token-Verarbeitungseffizienz entspricht den Erwartungen für ein Modell dieser Größe und Architektur. Da es sich um das erste Benchmark-Fenster handelt, liegen keine historischen Vergleichswerte vor. Nutzer sollten daher eigene Baselines für ihre konkreten Anwendungen etablieren. Künftige Benchmark-Fenster werden Aufschluss über die Performance-Stabilität sowie mögliche Optimierungen durch OVH AI Endpoints geben. Organisationen, die dieses Deployment evaluieren, sollten eigene Tests durchführen, um die Eignung für den geplanten Einsatzzweck zu prüfen.

Quality

Latency p50

Test runs

0

Ausgangsleistung festgelegt Gleichbleibender Durchsatz beobachtet Gutes Sprachverständnis Keine historischen Daten verfügbar
Abschnitt 08

Vollständiges Modellprofil

meta-llama-3_3-70b-instruct — illustration 1
Llama 3.3 70B Instruct auf OVH AI Endpoints

Metas Llama 3.3 70B Instruct ist das Modell, das Ende 2024 die meisten praktischen Lücken zu den führenden Closed-Weight-Modellen stillschweigend geschlossen hat. OVH AI Endpoints stellt es von europäischem Boden aus bereit, und genau diese Kombination macht es für europäische Produktivumgebungen interessant: ein schwergewichtiges Open-Weight-Modell, auf französischer Infrastruktur, ohne token-basierte Vertragsverhandlungen.

Wo es sich in der Aufstellung einordnet

Llama 3.3 70B ist das auf Instruktionen trainierte Modell mit 70 Milliarden Parametern, das Meta als Verfeinerung der 3.1-Linie veröffentlicht hat. Die zentrale Aussage von Meta war, dass die Leistung von 3.3 70B bei den meisten Aufgaben an Llama 3.1 405B heranreicht, was bedeutet, dass man den Großteil der Qualität für einen Bruchteil der Inference-Kosten und einen Bruchteil des GPU-Footprints erhält. Diese Aussage hält sich in der Praxis weitgehend, zumindest für die Arbeitskategorien, die die meisten Teams tatsächlich einsetzen: strukturierte Extraktion, Code-Assistenz, Zusammenfassungen, mehrsprachiger Chat, Tool-Use-Orchestrierung.

Das Kontextfenster umfasst 128.000 Tokens. Die Modalität ist rein Text, Eingabe und Ausgabe. Wenn Ihre Pipeline Vision benötigt, ist dies nicht der richtige Endpoint. Wenn Ihre Pipeline reiner Text ist, aber die Eingaben lang sind, bewältigt dieses Modell es ohne den Cost-per-Token-Anstieg, den Sie bei einer API der Frontier-Klasse sehen würden.

Was es gut macht

Multi-Turn-Reasoning ist der Bereich, in dem sich das Upgrade gegenüber den 8B-Llamas am deutlichsten zeigt. Sie können diesem Modell ein mäßig verwickeltes Problem mit mehreren Constraints geben, und es verfolgt sie über die gesamte Antwort hinweg. Code-Ausgaben sind in Mainstream-Sprachen kompetent. Function Calling und JSON-Mode-Output sind zuverlässig genug, um agentische Workflows anzutreiben, ohne die ständigen Wiederholungsschleifen, die kleinere Modelle auslösen.

Die mehrsprachige Leistung ist eine der echten Stärken. Englisch ist am stärksten, Französisch und Deutsch sind sehr gut, Spanisch und Italienisch sind solide, und das Modell hält sich angemessen gut in Portugiesisch, Niederländisch, Polnisch und einer langen Liste europäischer Sprachen. Bei nicht-europäischen Schriftsystemen ist die Qualität variabler; benchmarken Sie es gegen Ihre realen Prompts, bevor Sie sich festlegen.

Langform-Schreiben ist schärfer als bei den kleineren Llamas. Das Modell hält den Ton über eine Antwort hinweg und befolgt Stilanweisungen, ohne in absichernde Klauseln abzugleiten. Es profitiert dennoch von expliziter struktureller Anleitung im Prompt.

Wo es Schwächen zeigt

Dies ist ein starkes Open-Weight-Modell, kein Frontier-Closed-Modell. Bei den schwierigsten Reasoning-Benchmarks liegt es hinter den aktuellen kommerziellen Top-Angeboten zurück. Der Abstand ist schmaler als früher. Er ist real.

Das Modell hat eine Tendenz zur Weitschweifigkeit. Wenn Sie prägnante Antworten möchten, müssen Sie das im System-Prompt sagen und es manchmal mit einem Token-Limit durchsetzen. Halluzinationen bei selten zitierten Fakten und bei Namen sind vorhanden, entsprechend anderen Modellen in dieser Klasse. Output-Validierung für High-Stakes-Anwendungsfälle ist nicht verhandelbar, genauso wie es bei jedem anderen Modell wäre.

Vision fehlt. Audio fehlt. Wenn Sie eines von beiden benötigen, ist dies nicht Ihr Endpoint.

Die OVH-Residency-Geschichte

OVH hostet die Inference in Frankreich, mit dokumentiertem Datenfluss-Pfad und DPA im europäischen Stil geschrieben. Für Teams, die eine klare Antwort auf die Frage „wohin geht der Prompt tatsächlich" benötigen, ist die Antwort hier kurz: Er geht nach Gravelines oder Roubaix, er bleibt innerhalb des europäischen Cloud-Perimeters, und OVH nutzt Kunden-Prompts nicht zum Trainieren von Modellen.

Für Organisationen mit Souveränitätsmandat ist diese Kombination tatsächlich schwer zu finden. Die Hyperscaler bieten EU-Regionen an, aber die Vertrauensposition ist anders. OVHs Versprechen ist enger und ehrlicher. Für ein Modell der 70B-Klasse sind die praktischen Alternativen im Strict-EU-Segment rar.

Preisgestaltung

Die öffentlichen Tarife finden sich auf der OVH AI Endpoints-Seite. Wir veröffentlichen sie nicht erneut, weil sie sich ändern und weil wir lieber möchten, dass Sie die Quelle prüfen. Das Modell trägt höhere Kosten pro Aufruf als die 8B-Geschwister, wie zu erwarten, bleibt aber deutlich unter dem, was ein vergleichbares Closed-Weight-Frontier-Modell über eine US-API berechnen würde.

Wahl dieses Modells versus Alternativen

Wenn die Aufgabe in ein starkes, aber nicht Frontier-Envelope passt und EU-Residency wichtig ist: dies steht auf der Shortlist. Wenn Sie einen US-gehosteten Endpoint tolerieren können und die absolute Spitze der Qualitätskurve benötigen: dies ist nicht das Modell. Wenn Sie bereits mit einem kleineren Llama für den Großteil Ihres Traffics zufrieden sind und nur für die harten Fälle ein Schwergewicht benötigen: paaren Sie dies als Ihre Eskalationsstufe und leiten Sie die einfache Arbeit zum 8B.

Vergleichen Sie gegen die intelligence- und leaderboard-Seiten für die aktuellen Platzierungen bei den Prompts, die wir testen. Die mehrsprachige Abdeckung wird unter /benchmarks/languages aufgeschlüsselt. Für End-to-End-Latenzvergleiche in EU-Regionen siehe /benchmarks/speed.

Fazit

Llama 3.3 70B Instruct auf OVH ist die europäische Antwort auf „Ich brauche echte Qualität, ich brauche sie in der EU, und ich möchte nicht zusätzlich noch einen Closed-Weight-Vertrag dazu." Es ist nicht das leistungsstärkste Modell auf dem Markt im Jahr 2026. Es ist eine der besten Passformen für die EU-Produktionsconstraint, und der Katalog glaubwürdiger Wettbewerber in genau diesem Segment ist kurz.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

meta-llama-3_3-70b-instruct — illustration 2meta-llama-3_3-70b-instruct — illustration 3
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
105 ms
P95-Latenz
155 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026