Zum Inhalt
Tier A — Frontier
Läuft in:Multi-regionErstellt in:United States
OpenRouter

Llama 4 Maverick

Tier A — Frontier · 1.048576M Tokens · 400B-MoE

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Llama 4 Maverick ist ein großes Sprachmodell, das über die Plattform von OpenRouter angeboten wird und über ein außergewöhnlich großes Kontextfenster von 1.048.576 Tokens (etwa 1 Million Tokens) verfügt. Diese erweiterte Kontextkapazität ermöglicht es dem Modell, lange Dokumente, komplexe Codebasen oder ausgedehnte Gesprächsverläufe zu verarbeiten und kohärent zu halten, die die Grenzen der meisten zeitgenössischen Sprachmodelle überschreiten würden. Das Modell unterstützt eine umfassende Reihe von Funktionen, darunter Function Calling (Tools), visuelle Eingabeverarbeitung (Vision), anspruchsvolle Reasoning-Aufgaben sowie mehrsprachiges Verständnis und Generierung. Diese Kombination von Funktionen positioniert es als vielseitige Option für Anwendungen, die sowohl ausgefeilte analytische Fähigkeiten als auch multimodale Interaktion erfordern. Die Reasoning-Funktionalität deutet darauf hin, dass das Modell erweiterte Inferenztechniken nutzt, um die Leistung bei komplexen Problemlösungsaufgaben zu verbessern. Als Teil der Llama 4-Modellfamilie, die über OpenRouter zugänglich ist, stellt Maverick eine leistungsstarke Variante dar, die für Szenarien optimiert ist, in denen umfangreiche Kontextspeicherung und vielseitige Funktionalität entscheidend sind. OpenRouter fungiert als zwischengeschalteter Anbieter, der Zugang zu verschiedenen Sprachmodellen über eine einheitliche API bereitstellt. Die technischen Spezifikationen des Modells deuten darauf hin, dass es für Unternehmensanwendungen, Forschungsaufgaben und Entwicklungs-Workflows geeignet ist, die die Verarbeitung erheblicher Informationsmengen bei gleichzeitigem Zugriff auf Tool-Integration und multimodale Fähigkeiten erfordern.

Llama 4 Maverick positioniert sich als Schwergewicht für kontextintensive Workloads und vereint multimodale Eingaben mit einem Fenster von rund einer Million Token.

Tokonomix Modellprofil
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz68 runs
146166831914713623505-2406-09ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Llama 4 Maverick
$0.1500 pro 1M Input-Tokens
$0.6000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1105 / avg 692
1350179

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Riesiges Kontextfenster (~1M Token)Native Tool- und FunktionsaufrufeMultimodale BildverarbeitungErweiterte Reasoning-FähigkeitenSolide mehrsprachige AbdeckungEinheitlicher Zugang via OpenRouterGeeignet für Enterprise-WorkflowsStark bei langen Codebasen

Schwächen

Höhere Kosten bei langem KontextLatenz bei sehr großen EingabenKeine Audio- oder VideoeingabeBegrenzter Wissensstichtag
Abschnitt 05

Fähigkeiten

toolsvisionreasoningmultilingual
Abschnitt 06

Häufig gestellte Fragen

Das Modell spielt seine Stärken in Szenarien mit sehr langem Kontext aus, etwa bei der Analyse umfangreicher Dokumente, ganzer Codebasen oder mehrstufiger Agentenketten mit Tool-Nutzung. Auch multimodale Pipelines mit Text- und Bildeingaben sind ein typischer Anwendungsfall.

Für Teams, die lange Dokumente, große Codebasen oder komplexe Agenten-Workflows zuverlässig verarbeiten müssen, ist Maverick eine der pragmatischsten Optionen im Tier A.

Tokonomix Redaktionsfazit
Abschnitt 07

Tokonomix-Benchmark-Urteile

2026-06-07

Llama 4 Maverick adds tools, vision, reasoning, and multilingual support

Llama 4 Maverick has expanded significantly from its previous release, adding four major capability categories: tool usage, vision processing, reasoning tasks, and multilingual support. These additions transform the model from a text-focused solution into a comprehensive multimodal system. The integration of vision capabilities allows the model to process and analyze images alongside text, while the new reasoning features enable more complex problem-solving tasks. Tool support enables function calling and structured interactions with external systems, and multilingual capabilities extend the model's reach beyond English-only applications. These enhancements position Llama 4 Maverick as a versatile option for developers building applications that require diverse input modalities and advanced cognitive tasks. The expansion represents a substantial architectural evolution, bringing the model in line with contemporary AI assistant requirements. Users migrating from the previous version should note the broader application scope, though the impact on baseline text generation performance remains to be measured in future benchmark windows. The additions make this release particularly relevant for teams building agents, multimodal applications, or internationally-focused products.

Quality

Latency p50

Test runs

0

Vision support added Tool calling now available Reasoning capabilities introduced Multilingual support expanded
Abschnitt 08

Vollständiges Modellprofil

Llama 4 Maverick — illustration 1
Llama 4 Maverick: Metas Vorstoß ins Extreme — massiver Kontext, Mixture-of-Experts, offene Gewichte

Als Meta Ende 2024 Llama 4 Maverick ankündigte, las sich das Datenblatt wie eine Wunschliste aus den Architekturdiskussionen der vorangegangenen achtzehn Monate: 400 Milliarden Parameter in einer Mixture-of-Experts-Topologie angeordnet, ein Kontextfenster von einer Million Token, das in der Praxis tatsächlich funktioniert, und das vollständige Open-Weight-Release-Modell, das Llama 3 zu einem Deployment-Standard machte. Maverick steht am Schnittpunkt dreier Trends – MoE-Effizienz, die es ermöglicht, Frontier-Intelligenz ohne Frontier-Hardware-Kosten zu betreiben, Megakontext, der Dokumentenanalyse in einem einzigen Aufruf ermöglicht, und die fortschreitende Professionalisierung des offenen Ökosystems. Für Teams, die evaluieren, ob sie Traffic durch die proprietären APIs der Big-3 routen oder auf Aggregator-Infrastruktur setzen sollen, stellt Maverick eine spezifische Wette dar: Sie schätzen architektonische Transparenz, Kostenvorhersagbarkeit im Low-Tier und haben Workloads, die tatsächlich eine Million Token Speicher benötigen.

Das Modell taucht auf OpenRouter neben zweihundert anderen Endpunkten auf, aber es verdient seinen Platz auf tokonomix, weil es etwas liefert, das die geschlossenen Gärten nicht können – oder nicht wollen. OpenAIs Extended-Context-Modelle bleiben teuer und intransparent bezüglich Token-Verbrauch im großen Maßstab. Anthropics neueste Angebote erreichen in der Praxis für die meisten Nutzer deutlich unter einer Million Token. Googles Kontext-Experimente bleiben eng an Workspace-Integrationen gekoppelt. Maverick hingegen gibt Ihnen eine Million echte Token, verständliche Preisgestaltung im Low-Band und die Option, die Gewichte morgen zu ziehen, falls Sie entscheiden, dass Aggregator-Routing nicht mehr zu Ihrem Bedrohungsmodell passt.

Trainingsgeschichte und Architekturentscheidungen

Meta baute Maverick auf den Lektionen aus der Rezeption von Llama 3 – Entwickler wollten mehr Kontext, niedrigere Kosten pro intelligentem Token und bessere multilinguale Performance, ohne zu Spezialmodellen routen zu müssen. Die 400B-MoE-Architektur aktiviert pro Forward-Pass etwa 50-70 Milliarden Parameter, abhängig von den Sparsity-Gating-Entscheidungen des Routers. Dies ist nicht das größte MoE in freier Wildbahn – Googles interne Experimente und bestimmte Forschungsprototypen gehen weiter – aber es ist das größte Open-Weight-MoE mit einer glaubwürdigen Production-Story auf diesem Fähigkeitsniveau.

Der Trainingskorpus ist stark multilingual gewichtet. Meta nutzte ihre Datenpartnerschaften über WhatsApp-Metadaten, öffentliche Web-Crawls mit besserer nicht-englischer Repräsentation und kuratierte wissenschaftliche Korpora in Sprachen, die von den Big-3 unterversorgt sind. Das merkt man sofort, wenn man Hindi-Technische-Dokumentation oder brasilianisch-portugiesische Rechtsverträge darauf wirft – Maverick bricht nicht zusammen, wie es frühere Llama-Generationen taten. Es bevorzugt immer noch Englisch für komplexe Argumentationsketten, aber die Degradationskurve ist sanfter.

Das Kontextfenster von einer Million Token ist kein Marketing-Dampf. Meta veröffentlichte Ablationsstudien, die zeigen, dass das Modell kohärente Aufmerksamkeit über 800k Token aufrechterhält, mit graceful Degradation jenseits dieser Schwelle. In der Praxis können Sie ein 300-seitiges Technik-Handbuch, einen vollen Tag Slack-Export oder sechs Monate Customer-Support-Tickets in einem einzigen Aufruf einspeisen und Zusammenfassungen erhalten, die Seite 12 und Seite 287 im selben Atemzug referenzieren. Die Architektur verwendet eine Mischung aus Rotary Position Embeddings und einem benutzerdefinierten Attention-Sink-Mechanismus, der die ersten paar tausend Token heiß hält, während die Mitte komprimiert werden kann. Das ist wichtig, weil viele Megakontext-Anwendungsfälle eine statische Wissensbasis plus eine kleine Anfrage beinhalten – denken Sie an „hier sind all unsere internen Docs, jetzt beantworten Sie diese Frage" – und Mavericks Design optimiert genau dieses Zugriffsmuster.

Wo Maverick in Produktions-Workflows glänzt

Der klarste Fit ist dokumentenlastige Analyse, wo Sie zuvor Retrieval-Augmented-Generation oder Multi-Hop-Orchestrierung benötigten. Rechtsteams, die Discovery-Dokumente prüfen, Compliance-Analysten, die Policy-Handbücher mit Transaktionslogs abgleichen, Forschungsteams, die Literaturübersichten synthetisieren – diese Workflows kollabieren von mehrstufigen Pipelines zu einzelnen LLM-Aufrufen. Ein tokonomix-Nutzer lässt Maverick gegen vollständige klinische Studienprotokolle laufen, speist 400k Token an regulatorischen Einreichungen ein und bittet es, Inkonsistenzen mit FDA-Leitlinien zu kennzeichnen, die weitere 200k Token umfassen. Das Modell halluziniert keine Referenzen, weil die Referenzen im Kontext sitzen. Es benötigt keine Vektordatenbank, weil die Vektordatenbank das Kontextfenster ist.

Multilingualer Kundensupport ist eine weitere natürliche Spur. Wenn Sie in Lateinamerika, Indien und Südostasien tätig sind, ermöglicht Maverick Ihnen, ein Modell-Deployment beizubehalten, anstatt zu sprachspezifischen Endpunkten zu routen. Die Tool-Calling-Fähigkeit ist solide – nicht so poliert wie GPT-4s Function-Calling, aber zuverlässig genug, dass Sie es mit Ihrer CRM-API, Ihrer Wissensdatenbank-Suche und Ihrem Ticketing-System verbinden können, ohne ständige Retry-Logik. Die Vision-Komponente handhabt gängige Support-Szenarien: Produktfotos, Screenshot-Debugging, Rechnungsverifizierung. Es gewinnt keine OCR-Benchmarks, aber für „Kunde hat unscharfes Foto einer beschädigten Sendung geschickt" überschreitet es die Schwelle.

Code-lastige Kontexte profitieren vom Megakontext auf Weisen, die Teams überraschen, die von kleineren Fenstern kommen. Sie können Maverick ein ganzes Monorepo einspeisen – nicht nur ein paar Dateien, sondern den gesamten Dependency-Graph – und es fragen, wie sich eine Konfigurationsänderung in Modul A zu Modul Z fortpflanzen wird. Dies ist kein Ersatz für statische Analyse-Tools, aber es fängt die semantischen Abhängigkeiten, die grep und AST-Parser übersehen. Ein Team nutzt es für Incident-Response: die letzten sechs Stunden Anwendungslogs, die relevanten Service-Codebasen und das On-Call-Runbook in den Kontext kippen, dann fragen, was wahrscheinlich kaputt ging. Das Modell verbindet Punkte über Stack-Traces, Deployment-Zeitstempel und Code-Kommentare hinweg auf Weisen, die einen menschlichen Engineer dreißig Minuten Tab-Switching kosten würden.

Reasoning-markierte Capability bedeutet, dass Maverick Chain-of-Thought für komplexe Probleme zeigen wird, wenn Sie es korrekt prompten. Es ist nicht so natürlich zu Reasoning-Traces geneigt wie o1-preview oder Claude Opus, aber Sie können es mit System-Prompts herauslocken, die schrittweise Aufschlüsselungen belohnen. Das ist wichtig für Workflows, wo Auditierbarkeit nicht optional ist – Finanzmodell-Validierung, medizinische Entscheidungsunterstützung, alles, was vor einem Regulator landen könnte, der die Arbeit des Modells sehen will.

Wo Maverick nicht passt

Echtzeitlatenz-sensitive Anwendungen kämpfen mit der MoE-Architektur und dem Megakontext-Overhead. First-Token-Latenz bei einem Millionen-Token-Kontext liegt im Bereich mehrerer Sekunden selbst auf guter Hardware. Wenn Sie einen Chatbot bauen, wo Nutzer Sub-Sekunden-Antworten erwarten, halten Sie entweder Kontexte klein oder schauen woanders hin. Das Modell ist für Durchsatz und Kosten-pro-Token optimiert, nicht für Antwortgeschwindigkeit.

Hochspezialisierte Domains, wo die Big-3 in Custom-Fine-Tunes investiert haben, werden Maverick übertreffen. Medizinische Codierung mit ICD-10, rechtliches Cite-Checking in US-Fallrecht, Finanzberichtsanalyse unter GAAP – diese Verticals haben proprietäre Modelle, trainiert auf kuratierten Datensätzen und abgestimmt mit Experten-Feedback-Loops. Mavericks genereller multilingualer Korpus macht es zum Generalisten, was bedeutet, dass ihm die letzten 10 Prozent Genauigkeit in engen Expertenaufgaben fehlen.

Wenn Ihr Workflow das Generieren großer Textmengen beinhaltet – Content-Marketing, kreative Fiktion, Massen-Übersetzung – bietet Mavericks MoE-Architektur nicht genug Geschwindigkeitsvorteil, um die Routing-Komplexität zu rechtfertigen. Ein dichtes Modell mit ähnlicher Parameter-Anzahl wird oft schneller und einfacher zu deployen sein für generierungslastige Workloads. Das MoE glänzt, wenn Sie eine Million Token lesen und ein paar tausend schreiben, nicht umgekehrt.

Embeddings sind nicht Mavericks Stärke. Wenn Sie hochwertige Vektorrepräsentationen für semantische Suche oder Clustering benötigen, werden dedizierte Embedding-Modelle ein generalistisches LLM im Embedding-Modus übertreffen. Maverick kann Embeddings produzieren, aber es ist ineffizient und die Qualität rechtfertigt die Compute-Kosten nicht.

Vergleich zu nächsten Peers in der Aggregator-Landschaft

Innerhalb der Open-Weight-MoE-Kategorie konkurriert Maverick primär mit Mixtral-Derivaten und der Qwen2.5-MoE-Serie. Mixtral 8x22B bleibt ein Arbeitspferd für Teams, die MoE-Effizienz ohne Megakontext wollen – sein 64k-Fenster reicht für die meisten Aufgaben, und die kleinere aktivierte Parameter-Anzahl bedeutet schnellere Inferenz. Maverick tauscht diese Geschwindigkeit gegen Kontexttiefe und multilinguale Reichweite. Wenn Ihr medianer Kontext unter 100k Token und primär Englisch ist, ist Mixtral wahrscheinlich das schärfere Werkzeug. Wenn Sie regelmäßig an Kontextlimits stoßen oder nicht-englischen Traffic bedienen, rechtfertigt Maverick den Overhead.

Qwen2.5-MoE-Modelle von Alibaba bieten vergleichbare multilinguale Performance und ähnliche MoE-Effizienz, aber sie erreichen maximal 128k Kontext in den größten öffentlich verfügbaren Versionen. Die Trainingsdaten neigen sich zu Chinesisch und angrenzenden Sprachen, was Qwen zu einem besseren Fit für Asien-Pazifik-Workflows und Maverick zu einem besseren Fit für globale Deployments macht, die Europa und die Amerikas einschließen.

Gegen dichte Modelle im selben Fähigkeitsband hängt der Vergleich von Ihren Kontext-Bedürfnissen ab. Ein 70B-dichtes-Modell wird schneller antworten und sich einfacher deployen als Maverick, aber es kann keine Million Token halten. Wenn Ihre Architektur bereits Chunking- und Retrieval-Logik beinhaltet, könnte das dichte Modell der Weg des geringsten Widerstands sein. Wenn Sie versuchen, diese Komplexität zu eliminieren, ist Mavericks Kontextfenster der Grund seiner Existenz.

Geschlossene Modelle der Big-3 bleiben wettbewerbsfähig bei roher Qualität für Short-Context-Aufgaben. Claude Sonnet und GPT-4 Turbo werden generell poliertere Prosa produzieren, mehrdeutige Anweisungen besser handhaben und sich anmutiger von adversarialen Prompts erholen. Aber keines gibt Ihnen offene Gewichte, keines bietet Low-Tier-Preise auf diesem Fähigkeitsniveau, und keines lässt Sie Inferenz auf Ihrer eigenen Infrastruktur laufen, wenn Compliance oder Datenresidenz es verlangen. Maverick versucht nicht, sie bei Qualität zu schlagen; es versucht, einen anderen Satz von Trade-offs anzubieten.

Kosten- und Verfügbarkeitsdynamik

Low-Tier-Preise auf OpenRouter setzen Maverick in dasselbe Band wie Llama 3.1 70B und andere Mid-Tier-Open-Modelle. Sie zahlen deutlich weniger pro Token als jedes der Big-3-Frontier-Angebote, und die MoE-Architektur bedeutet, Sie erhalten mehr effektive Intelligenz pro Dollar als ein vergleichbar bepreistes dichtes Modell. Der Haken ist immer Auslastung – wenn Sie 10k-Token-Kontexte senden, nutzen Sie die Architektur nicht effizient, und ein günstigeres dichtes Modell wird Ihnen bessere Unit-Economics geben.

Das Open-Weight-Release bedeutet, Sie haben einen Ausstiegspfad. Wenn Ihre Nutzung auf einen Punkt skaliert, wo Aggregator-Gebühren zu einem Posten werden, oder wenn Sie regulatorischem Druck ausgesetzt sind, selbst zu hosten, können Sie die Gewichte ziehen und Maverick auf Ihren eigenen Clustern laufen lassen. Das ist nicht trivial – 400B Parameter in MoE-Konfiguration erfordern immer noch Multi-GPU-Setups und sorgfältiges Memory-Management – aber es ist möglich auf eine Weise, die proprietäre Modelle niemals erlauben. Mehrere tokonomix-Nutzer behandeln OpenRouter als ihre Prototyping- und Low-Volume-Umgebung, dann self-hosten sie, sobald sie den Workflow bewiesen haben.

Verfügbarkeit durch einen Aggregator wie OpenRouter bedeutet auch, Sie erben die Retry-Logik, Failover und Rate-Limit-Handling des Aggregators. Sie managen nicht API-Keys für mehrere Provider oder bauen Ihre eigene Load-Balancing-Schicht. Für kleine Teams ist das der Unterschied zwischen einer Woche auf Infrastruktur und einer Woche am eigentlichen Produkt. Der Trade-off ist weniger Kontrolle über Modell-Versionierung und Update-Zeitpläne – wenn Meta einen neuen Maverick-Checkpoint ausliefert, wird OpenRouter ihn nach ihrem Zeitplan ausrollen, nicht Ihrem.

Urteil: wenn Sie das gesamte Dokument im Kontext brauchen

Llama 4 Maverick besetzt eine spezifische, aber wertvolle Nische. Es ist das Modell, das Sie wählen, wenn Kontextlimits Ihr Flaschenhals waren, wenn Ihr Workload genug Sprachen umfasst, dass Einzel-Sprach-Spezialisten zu einer Wartungslast werden, und wenn Low-Tier-Preise genug bedeuten, dass Sie das Problem nicht einfach auf die Big-3 werfen und abrechnen können. Die offenen Gewichte geben Ihnen eine Absicherung gegen Vendor-Lock-in, und die MoE-Architektur gibt Ihnen frontier-angrenzende Intelligenz ohne frontier-angrenzende Kosten.

Es ist nicht das polierteste Modell im Ökosystem. Es ist nicht das schnellste. Es wird nicht bessere Marketing-Texte schreiben als Claude oder härtere Mathe-Probleme lösen als o1. Aber wenn Sie das Team sind, das ständig an 128k-Token-Limits stößt, wenn Sie Support-Tickets in acht Sprachen übersetzen, wenn Sie versuchen, ganze Codebasen oder Dokumentensets in einem einzigen Pass zu analysieren, ist Maverick für genau dieses Problem gebaut. Es repräsentiert die Reifung des offenen Ökosystems – nicht mehr nur Aufholjagd zu proprietären Modellen spielen, sondern architektonische Entscheidungen treffen, die Workloads bedienen, die die geschlossenen Gärten deprioisieren. Für den richtigen Workflow ist das mehr wert als ein paar weitere Punkte auf einem Benchmark-Leaderboard.

Llama 4 Maverick — illustration 2Llama 4 Maverick — illustration 3
Letzter automatisierter Test
9. Juni 2026 · 20:03 UTC · Geschwindigkeits-Benchmark
P50-Latenz
181 ms
P95-Latenz
189 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026