Zum Inhalt
Tier A — Frontier
Läuft in:Multi-regionErstellt in:United States
OpenRouter

Llama 3.3 70B Instruct

Tier A — Frontier · 131K Tokens · 70B

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Llama 3.3 70B Instruct ist ein großes Sprachmodell, das von Meta entwickelt wurde und über die API-Plattform von OpenRouter verfügbar ist. Das Modell stellt eine Iteration in Metas Llama-3-Reihe dar, verfügt über 70 Milliarden Parameter und ist speziell für instruktionsbasierte Aufgaben konzipiert. Es unterstützt ein Kontextfenster von 131.000 Tokens und kann somit Antworten auf Basis umfangreicher Eingabetexte verarbeiten und generieren. Das Modell ist für allgemeine Sprachaufgaben ausgelegt, darunter Textgenerierung, Fragebeantwortung, Inhaltsanalyse und konversationelle Anwendungen. Zu seinen Fähigkeiten zählen Function Calling über Tool-Nutzung, mehrstufige Reasoning-Aufgaben sowie mehrsprachige Textverarbeitung in zahlreichen Sprachen. Durch die Instruction-Tuning-Ausrichtung eignet sich das Modell für Anwendungen, die das Einhalten spezifischer Prompts und strukturierter Ausgaben erfordern. Innerhalb der Llama-3-Familie nimmt die Variante 3.3 70B eine mittlere Position hinsichtlich der Modellgröße ein und bietet einen Ausgleich zwischen Rechenanforderungen und Leistungsfähigkeit. OpenRouter stellt den Zugang zu diesem Modell als Teil seiner aggregierten KI-Service-Plattform bereit und ermöglicht es Entwicklern, Llama 3.3 70B Instruct über eine einheitliche API-Schnittstelle in ihre Anwendungen zu integrieren. Das erweiterte Kontextfenster und die Tool-Use-Fähigkeiten qualifizieren das Modell für Anwendungen, die die Verarbeitung langer Dokumente oder mehrstufige Interaktionen mit externen Systemen erfordern.

Llama 3.3 70B Instruct via OpenRouter: Metas bewährtes 70B-Open-Weight-Modell mit 131k-Kontext und Tool-Use.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz68 runs
113256650197472992505-2406-09ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Llama 3.3 70B Instruct
$0.1000 pro 1M Input-Tokens
$0.3200 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.3200

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3200

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)349 / avg 688
174735

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Meta Llama-3.3-Qualität131.000-Token-Kontextfenster70-Milliarden-ParameterFunction-Calling und Tool-UseMehrsprachige FähigkeitenOpen-Weight-Basis

Schwächen

Via OpenRouter, kein DirektzugangWeniger Tiefe als 405B-Variante70B-Ressourcenbedarf
Abschnitt 05

Fähigkeiten

toolsreasoningmultilingual
Abschnitt 06

Häufig gestellte Fragen

Llama 3.3 bringt iterative Verbesserungen in Instruction-Following, Mehrsprachigkeit und Gesamtleistung gegenüber 3.0 und 3.1.

Als Mittelklasse der Llama-3-Serie bietet 70B Instruct eine solide Balance für breite Produktionsanwendungen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

2026-06-07

Llama 3.3 70B Instruct adds tools, reasoning, and multilingual capabilities

Llama 3.3 70B Instruct has expanded its feature set with the introduction of tool use, reasoning capabilities, and enhanced multilingual support. These additions represent a significant evolution from the previous benchmark window, where the model established its baseline performance across core language tasks. The new tool-calling functionality enables integration with external systems and APIs, while the reasoning enhancement suggests improved performance on complex analytical tasks. Multilingual capabilities broaden the model's applicability across diverse language contexts. However, without comparative performance metrics between windows, users should conduct their own testing to validate these capabilities against their specific use cases. The model maintains its 70B parameter architecture, continuing to offer a balance between capability and computational efficiency. These additions position Llama 3.3 70B Instruct as a more versatile option for developers requiring multi-modal interaction patterns, function calling, and cross-lingual applications. Users migrating from the previous version should expect expanded functionality while core language understanding and generation capabilities remain consistent with the established baseline.

Quality

Latency p50

Test runs

0

Tool use capability added Reasoning enhancement introduced Multilingual support expanded
Abschnitt 08

Vollständiges Modellprofil

Llama 3.3 70B Instruct — illustration 1
Llama 3.3 70B Instruct: Die offene Alternative, die die Fähigkeitslücke geschlossen hat

Als Meta Ende 2024 Llama 3.3 70B Instruct auslieferte, kam es ohne Fanfare, aber mit einem Datenpunkt, der zählt: Dieses 70-Milliarden-Parameter-Modell erreichte oder übertraf das 405B-Flaggschiff in den meisten Benchmarks, während es mit einem Bruchteil der Rechenkosten lief. Für Produktionsteams, die sich im Aggregator-Ökosystem bewegen, bedeutet diese Effizienzdividende etwas Konkretes – ein Modell, das Reasoning und Tool-Nutzung auf Frontier-Niveau liefert, zu Preisen, die die Big-3-APIs aufgebläht aussehen lassen.

Llama 3.3 70B befindet sich in einer ungewöhnlichen Position. Es ist kein kämpferischer Emporkömmling, der beweist, dass Open-Source mithalten kann; es ist eine bewusste architektonische Wette von Meta, dass spärliche Aktivierung und intelligenteres Training Brute-Force-Skalierung übertreffen können. Das Ergebnis ist ein Modell, nach dem Entwickler greifen, wenn sie GPT-4-Klasse-Output benötigen, aber Kontrolle über ihren Inference-Stack wollen, multilinguale Reichweite über englischzentrierte kommerzielle Modelle hinaus oder einfach eine Kostenstruktur, die Hochvolumen-Workflows nicht bestraft. Auf Plattformen wie OpenRouter, wo es gegen Hunderte von Alternativen antritt, hat sich Llama 3.3 70B ein Territorium als Standardwahl für Teams erarbeitet, die Fähigkeitsdichte über Markenbekanntheit stellen.

Training-Geschichte und architektonische Realität

Llama 3.3 70B entstand aus Metas Sprachmodell-Programm der dritten Generation, aufgebaut auf demselben 15-Billionen-Token-Trainingskorpus, der das 405B-Flaggschiff antrieb. Die interessante Wendung ist, wie Meta vergleichbare Leistung mit etwa einem Sechstel der Parameter erreichte. Das Trainingsprogramm setzte stark auf Knowledge Distillation vom größeren Geschwistermodell und komprimierte effektiv die Reasoning-Pfade und das Weltwissen in eine dichtere Gewichtsverteilung. Dies ist nicht nur Quantisierung oder Pruning im Nachhinein – die Destillation geschah während des Pre-Trainings, was bedeutet, dass die 70B-Variante von Grund auf lernte, die Repräsentationen des 405B zu approximieren.

Die Architektur selbst ist ein standardmäßiger Decoder-Only-Transformer, aber der Attention-Mechanismus verwendet Grouped-Query Attention, um die Speicherbandbreite während der Inferenz zu reduzieren. Diese Designentscheidung zahlt sich aus, wenn Sie dieses Modell im großen Maßstab betreiben: Der Speicher-Footprint pro Forward-Pass ist überschaubar genug, dass Sie es auf Mid-Tier-GPU-Konfigurationen ohne exotische Multi-Node-Setups bedienen können. Das 131k-Token-Kontextfenster wird über RoPE-Embeddings mit erweiterten Frequenzbasen gehandhabt, derselbe Ansatz, der Llama 3.1 für Long-Document-Arbeit gangbar machte.

Meta trainierte dieses Modell mit einer Instruction-Tuning-Phase, die Tool-Calling und strukturierte Ausgabe betonte. Die Tooling-Fähigkeit ist nicht durch System-Prompts aufgepfropft – sie ist in die Fine-Tuning-Daten eingebrannt, die Millionen synthetischer Beispiele enthielten, bei denen das Modell entscheiden musste, wann es externe Funktionen aufruft, deren Ergebnisse parst und diese Informationen in seine Antwort integriert. Das Ergebnis ist ein Modell, das Function-Calling-Muster zuverlässiger handhabt als viele kommerzielle Alternativen, besonders wenn Workflows das Verketten mehrerer Tool-Aufrufe über ein Gespräch hinweg erfordern.

Das multilinguale Training ist erwähnenswert. Während das 405B-Modell auf Daten in Dutzenden Sprachen trainiert wurde, bewahrte der Destillationsprozess für 3.3 70B diese polyglotte Kapazität ohne signifikante Verschlechterung. Für Teams, die Produkte außerhalb der Anglosphäre entwickeln, ist das wichtig: Sie erhalten kohärentes Reasoning auf Spanisch, Deutsch, Französisch und einem Dutzend anderer Sprachen ohne den Qualitätsabfall, der kleinere offene Modelle plagt. Die Leistung ist nicht einheitlich – westeuropäische Sprachen schneiden besser ab als ressourcenarme asiatische oder afrikanische Sprachen – aber die Baseline ist hoch genug, dass Sie multilinguale Features prototypisieren können, ohne mitten in der Entwicklung die Modelle zu wechseln.

Wo es dominiert: Tool-intensive und Long-Context-Workflows

Llama 3.3 70B fand sein Publikum am schnellsten bei Teams, die agentenähnliche Systeme bauen, die LLM-Reasoning mit externen Datenquellen kombinieren. Die zuverlässige Function-Calling-Fähigkeit des Modells bedeutet, dass Sie Datenbank-Lookups, API-Requests und Dokument-Retrievals verketten können, ohne die Brüchigkeit, die einfachere Modelle unvorhersehbar scheitern lässt. Ein Muster, das wir wiederholt sehen: Entwickler beginnen mit einer kommerziellen API zum Prototyping, stoßen an Nutzungsgrenzen oder Kostenobergrenzen, migrieren dann zu Llama 3.3 70B auf einem Managed Host und stellen fest, dass Latenz und Output-Qualität gut standhalten.

Long-Document-Understanding ist ein weiteres natürliches Einsatzgebiet. Dieses 131k-Kontextfenster ist nicht nur Marketing – es ist wirklich verwendbar für Workflows wie Vertragsüberprüfung, Analyse technischer Dokumentation oder Multi-File-Codebases. Das Modell hält Kohärenz über das gesamte Fenster besser aufrecht als frühere Llama-Generationen, wo die Attention sichtbar nach der 30k-Token-Marke degradierte. Sie können eine gesamte Codebase in den Kontext laden, Architekturfragen stellen und Antworten erhalten, die Details aus Dateien referenzieren, die zwanzigtausend Token zurückliegen. Dies macht es für RAG-Pipelines gangbar, bei denen Sie den Retrieval-Schritt komplett überspringen und einfach alles in den Kontext laden möchten.

Code-Generierung liegt irgendwo zwischen Stärke und Limitation. Llama 3.3 70B bewältigt Standard-Programmieraufgaben kompetent – API-Clients schreiben, Boilerplate generieren, unbekannten Code erklären – und es macht sich gut mit Python und JavaScript, wo die Trainingsdaten am reichhaltigsten sind. Aber es ist kein spezialisiertes Code-Modell. Bei engen algorithmischen Problemen oder obskuren Sprachfeatures werden Sie bemerken, dass es eher plausibel aussehende, aber subtil falsche Lösungen halluziniert als ein Modell, das explizit auf Code-Korpora trainiert wurde. Der Sweet Spot liegt bei Glue-Code und Scripting-Aufgaben, wo Klarheit mehr zählt als Mikrooptimierungen.

Die Reasoning-Fähigkeit verdient Prüfung, weil „Reasoning" zu einem so verwässerten Begriff geworden ist. Llama 3.3 70B macht kein explizites Chain-of-Thought in der Art, wie es OpenAIs o1-Modelle tun, wo Sie Token sehen, die internen Überlegungen gewidmet sind. Stattdessen produziert es Outputs, die mehrstufiges Denken widerspiegeln, ohne die Zwischenschritte offenzulegen. Für viele praktische Workflows – Datentransformation, Textklassifizierung, Zusammenfassung mit Constraints – ist dieses implizite Reasoning ausreichend. Sie erhalten Antworten, die Edge Cases und Trade-offs berücksichtigen, ohne dass Sie aufwendige Reasoning-Gerüste prompt-engineeren müssen.

Wo es nicht passt

Dieses Modell ist kein Drop-in-Ersatz für die absolute Frontier. Wenn Ihr Workflow von der Bleeding Edge des faktischen Wissens abhängt, werden Sie auf Grenzen stoßen. Llama 3.3 70Bs Trainingsdaten haben einen Knowledge Cutoff, und obwohl Meta das genaue Datum nicht veröffentlicht, schneidet das Modell bei Ereignissen oder technischen Entwicklungen der letzten Monate merklich schlechter ab als kontinuierlich aktualisierte kommerzielle APIs. Für Anwendungen, wo Aktualität wichtig ist – Nachrichtenanalyse, aktuelle wissenschaftliche Literatur, aktuelle Produktkataloge – benötigen Sie entweder eine Retrieval-Schicht zum Einfügen frischer Daten oder ein Modell mit aktuellererem Training.

Nuanciertes kreatives Schreiben ist eine weitere Lücke. Das Modell bewältigt funktionale Prosa gut, aber wenn Sie Fiktion mit distinkten Charakterstimmen, literarische Stilemulation oder kreative narrative Struktur benötigen, werden Sie den Output als brauchbar, aber flach empfinden. Dies ist kein Fehler im traditionellen Sinne – es ist eine Konsequenz der Optimierung für Instruction-Following und faktische Genauigkeit statt kreativen Ausdruck. Teams, die Storytelling-Produkte oder Marketing-Copy-Generatoren bauen, greifen typischerweise zu Claude oder GPT-4-Varianten, wo die Stilbandbreite breiter ist.

Latenzempfindliche Anwendungen führen Trade-offs ein. Mit 70 Milliarden Parametern ist dieses Modell selbst mit Grouped-Query Attention langsamer pro Token als die 8B- oder 13B-Alternativen. Wenn Sie einen Chatbot bauen, wo Nutzer Sub-Sekunden-First-Token-Latenz erwarten, müssen Sie sorgfältig über Ihr Hosting-Setup nachdenken. Der Betrieb auf geteilter Infrastruktur über einen Aggregator bedeutet, dass Sie Queuing und variablen Antwortzeiten unterliegen. Für Use Cases, wo vorhersagbare Latenz wichtig ist – Kundensupport-Chat, Echtzeit-Content-Moderation – benötigen Sie möglicherweise dedizierte Kapazität oder ein kleineres Modell.

Die Guardrails des Modells spiegeln Metas Policy-Haltung wider, die dazu neigt, kontroverse oder erwachsene Inhalte mit angemessenem Prompting zu erlauben. Dies ist vorteilhaft für Teams, die Anwendungen in Bereichen wie Rechtsrecherche, Gesundheitswesen oder akademischem Schreiben bauen, wo überaggressive Inhaltsfilter False Positives verursachen. Aber es bedeutet auch, dass Sie mehr von der Safety-Schicht besitzen, wenn Sie konsumentenorientierte Produkte bauen. Das Modell wird harmlose Anfragen nicht verweigern, wie es manche kommerzielle APIs tun, aber es wird auch nicht jeden Edge Case abfangen, der in adversarialen Szenarien problematische Ausgaben erzeugen könnte.

Wettbewerbspositionierung in der 70B-Gewichtsklasse

Der direkteste Vergleich ist Qwen 2.5 72B, das ähnliches Territorium in der Open-Model-Landschaft besetzt. Qwen liegt bei reinen Benchmark-Scores vorn, besonders bei Mathe- und strukturierten Reasoning-Aufgaben. Aber Llama 3.3 70B tendiert dazu, natürlichere, weniger gestelzte Prosa zu produzieren – eine Qualität, die für nutzerorientierte Anwendungen mehr zählt, als die Leaderboard-Position vermuten lässt. Die Wahl zwischen ihnen kommt oft auf das Deployment-Ökosystem an: Wenn Sie bereits mit Metas Tooling integriert sind oder Llama-kompatible Frameworks verwenden, ist der Wechselaufwand Qwens marginale Genauigkeitsgewinne nicht wert.

Gegen Mixtral 8x22B schaffen die Architekturunterschiede distinkte Trade-offs. Mixtral's Mixture-of-Experts-Design bedeutet schnellere Inferenz für viele Prompts, da nur ein Bruchteil der Parameter pro Token aktiviert wird. Aber Llama 3.3 70Bs dichte Architektur handhabt Long-Context-Szenarien anmutiger, wo Mixtral's Routing Inkonsistenzen über ein langes Gespräch einführen kann. Für Agent-Workflows, die stabiles Reasoning über viele Turns erfordern, gewinnt die Vorhersagbarkeit des dichten Modells.

Der Vergleich zu kommerziellen APIs ist, wo es interessant wird. Llama 3.3 70B liegt unter GPT-4o und Claude 3.5 Sonnet in den meisten Evaluation-Suites, aber die Lücke ist schmaler als die Preisdifferenz vermuten ließe. Für Teams, die Produktions-Workloads betreiben, ist die relevante Frage nicht, welches Modell höher bei MMLU scored – es ist, ob die Kosteneinsparungen die Fähigkeitsdifferenz für Ihren spezifischen Use Case rechtfertigen. Wenn Ihre Anwendung template-getrieben mit klaren Erfolgskriterien ist, rechtfertigt der Unterschied zwischen 87% und 91% Genauigkeit oft keine dreifache Erhöhung der Ausgaben.

Googles Gemini 1.5 Pro bietet einen direkteren Trade-off. Gemini hat ein massives Kontextfenster und starke multimodale Fähigkeiten, Bereiche, in denen Llama 3.3 70B nicht konkurriert. Aber für reine Text-Workflows, wo Sie Dokumente in den Zehntausenden von Token statt Millionen verarbeiten, liefert Llama vergleichbaren Output bei besserer Unit Economics. Die Entscheidung hängt davon ab, ob Ihr Workflow tatsächlich diese Gemini-spezifischen Features braucht oder ob Sie für Headroom bezahlen, den Sie nie nutzen werden.

Kosten, Verfügbarkeit und operationale Realität

Llama 3.3 70Bs Position im Niedrigpreis-Kostenband reflektiert sowohl die Effizienz der Architektur als auch die Wettbewerbsdynamik des Aggregator-Marktes. Auf OpenRouter und ähnlichen Plattformen konkurrieren Anbieter beim Preis für populäre offene Modelle und treiben die Raten in Richtung der marginalen Inferenzkosten. Dies schafft einen gangbaren Pfad für Teams, Frontier-Klasse-Modelle bei Volumina zu betreiben, die mit geschlossenen APIs prohibitiv wären.

Das Modell ist über die meisten großen Aggregator-Plattformen verfügbar und kann für Teams mit Infrastrukturkapazität selbst gehostet werden. Self-Hosting macht bei Skalierung Sinn – wenn Sie monatlich Millionen von Requests verarbeiten, amortisieren sich die Kapitalkosten der GPU-Kapazität schnell gegen Per-Token-Gebühren. Aber der Betriebsaufwand ist real: Sie sind verantwortlich für Uptime, Skalierung, Model-Versionierung und alle Infrastrukturbelange, die verschwinden, wenn Sie einen API-Endpoint ansprechen. Für die meisten Teams trifft Aggregator-Hosting den Sweet Spot: nutzungsbasierte Preisgestaltung ohne Infrastrukturlast.

Durchsatz und Kapazität sind auf geteilter Infrastruktur weniger vorhersagbar. Während Spitzenzeiten können Sie auf Queuing oder Rate Limits stoßen, die Sie zwingen, Retry-Logik und Fallback-Pfade zu implementieren. Dies ist der Preis für kostengünstigen Zugang – Sie teilen Kapazität mit anderen Mietern, und Anbieter priorisieren basierend auf ihrer eigenen Ökonomie. Für Produktionssysteme bedeutet dies, dass Sie Monitoring und Circuit Breakers benötigen, um anmutig zu degradieren, wenn das Modell langsam oder nicht verfügbar ist.

Die Lizenzierung ist unkompliziert: Meta veröffentlichte Llama 3.3 unter einer permissiven Lizenz, die kommerzielle Nutzung ohne Einschränkungen für die meisten Anwendungen erlaubt. Dies beseitigt die rechtliche Mehrdeutigkeit, die einige offene Modelle umgibt, wo Trainingsdaten-Provenienz oder Weight-Lizenzierung Unsicherheit schafft. Sie können kommerzielle Produkte bauen, die Weights fine-tunen und deployen, ohne Metas Genehmigung einzuholen.

Das Urteil für Produktionsteams

Llama 3.3 70B repräsentiert einen Reifepunkt für offene Sprachmodelle – den Moment, als sich die Fähigkeitslücke so weit verengte, dass die Entscheidung zwischen offenen und geschlossenen APIs genuinuanciert wurde. Dieses Modell gewinnt nicht in jeder Dimension. Es ist nicht das schnellste, nicht das kreativste, nicht das faktisch aktuellste. Aber es liefert ein ausgewogenes Profil starken Reasonings, zuverlässiger Tool-Nutzung und multilingualer Kapazität zu einem Preispunkt, der zuvor marginale Use Cases ökonomisch gangbar macht.

Die Teams, die wir den meisten Wert extrahieren sehen, sind diejenigen, die Agent-Systeme bauen, lange Dokumente verarbeiten oder nicht-englische Märkte bedienen, wo kommerzielle APIs merklich degradieren. Dies sind Workflows, wo die spezifischen Stärken des Modells mit Produktionsbedürfnissen übereinstimmen und wo die Kosteneinsparungen bei Skalierung schnell kumulieren. Wenn Ihre Anwendung zu diesem Profil passt, verdient Llama 3.3 70B ernsthafte Evaluation – nicht als Kompromisswahl, sondern als bewusste Selektion, die für andere Constraints optimiert als die kommerziellen Frontier-Angebote.

Das Open-Model-Ökosystem bewegt sich schnell, und Llama 3.3 70B ist ein Snapshot der Fähigkeiten von Ende 2024. Aber der zugrundeliegende Trend ist klar: Die Leistungsobergrenze steigt weiter, während die Kostenuntergrenze weiter fällt. Dieses Modell sitzt an der Schnittstelle dieser Kurven und bietet produktionsreife Fähigkeit zu einem Preis, der die Kalkulation dessen verändert, was es wert ist zu automatisieren. Für Teams, die diesen Trade-Space navigieren, ist es zum Benchmark geworden, den andere 70B-Modelle schlagen müssen.

Llama 3.3 70B Instruct — illustration 2
Letzter automatisierter Test
9. Juni 2026 · 20:03 UTC · Geschwindigkeits-Benchmark
P50-Latenz
573 ms
P95-Latenz
9452 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026