Naar inhoud
Tier A — Frontier
Draait in:Multi-regionGemaakt in:United States
OpenRouter

Llama 4 Maverick

Tier A — Frontier · 1.048576M tokens · 400B-MoE

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Llama 4 Maverick is een groot taalmodel dat wordt aangeboden via het platform van OpenRouter, met een uitzonderlijk groot contextvenster van 1.048.576 tokens (ongeveer 1 miljoen tokens). Deze uitgebreide contextcapaciteit stelt het model in staat om coherentie te verwerken en te behouden over lange documenten, complexe codebases of uitgebreide gesprekken die de beperkingen van de meeste hedendaagse taalmodellen zouden overschrijden. Het model ondersteunt een uitgebreide reeks mogelijkheden, waaronder function calling (tools), verwerking van visuele input (vision), geavanceerde redeneertaken en meertalig begrip en generatie. Deze combinatie van functies positioneert het als een veelzijdige optie voor toepassingen die zowel geavanceerde analytische capaciteiten als multimodale interactie vereisen. De redeneerfunctionaliteit suggereert dat het model uitgebreide inferentietechnieken gebruikt om de prestaties bij complexe probleemoplossingstaken te verbeteren. Als onderdeel van de Llama 4 modelfamilie die toegankelijk is via OpenRouter, vertegenwoordigt Maverick een variant met hoge capaciteit, geoptimaliseerd voor scenario's waarin uitgebreid contextbehoud en diverse functionaliteit essentieel zijn. OpenRouter fungeert als tussenleverancier en biedt toegang tot verschillende taalmodellen via een uniforme API. De technische specificaties van het model geven aan dat het geschikt is voor zakelijke toepassingen, onderzoekstaken en ontwikkelworkflows die verwerking van aanzienlijke hoeveelheden informatie vereisen, met behoud van toegang tot tool-integratie en multimodale capaciteiten.

Met een contextvenster van ruim een miljoen tokens en multimodale ondersteuning positioneert Llama 4 Maverick zich als werkpaard voor langlopende, complexe workloads.

Tokonomix redactie
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency68 runs
146166831914713623505-2406-09ms
Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Llama 4 Maverick
$0.1500 per 1M input-tokens
$0.6000 per 1M output-tokens
≈ $0.0002 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.1500
per 1M output-tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sectie 03

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1105 / avg 692
1350179

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 04

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Contextvenster van ~1M tokensFunction calling ondersteundVerwerking van beeldinvoerGeavanceerde redeneercapaciteitenSterke meertalige dekkingToegankelijk via uniforme OpenRouter-APIGeschikt voor enterprise-workloadsCoherentie over lange documenten

Zwakke punten

Hoge kosten bij volledig contextgebruikLatentie groeit met lange promptsAfhankelijk van OpenRouter-beschikbaarheidKennisafkapdatum beperkt actualiteit
Sectie 05

Mogelijkheden

toolsvisionreasoningmultilingual
Sectie 06

Veelgestelde vragen

Ja, het contextvenster van ongeveer 1 miljoen tokens maakt het model bijzonder geschikt voor analyse van uitgebreide documenten, transcripten of complete codebases zonder agressieve chunking.

Voor teams die lange documenten, codebases en tool-gebruik willen combineren in één model, is Maverick via OpenRouter een solide A-tier keuze.

Tokonomix benchmark samenvatting
Sectie 07

Tokonomix benchmark-oordelen

2026-06-07

Llama 4 Maverick adds tools, vision, reasoning, and multilingual support

Llama 4 Maverick has expanded significantly from its previous release, adding four major capability categories: tool usage, vision processing, reasoning tasks, and multilingual support. These additions transform the model from a text-focused solution into a comprehensive multimodal system. The integration of vision capabilities allows the model to process and analyze images alongside text, while the new reasoning features enable more complex problem-solving tasks. Tool support enables function calling and structured interactions with external systems, and multilingual capabilities extend the model's reach beyond English-only applications. These enhancements position Llama 4 Maverick as a versatile option for developers building applications that require diverse input modalities and advanced cognitive tasks. The expansion represents a substantial architectural evolution, bringing the model in line with contemporary AI assistant requirements. Users migrating from the previous version should note the broader application scope, though the impact on baseline text generation performance remains to be measured in future benchmark windows. The additions make this release particularly relevant for teams building agents, multimodal applications, or internationally-focused products.

Quality

Latency p50

Test runs

0

Vision support added Tool calling now available Reasoning capabilities introduced Multilingual support expanded
Sectie 08

Volledig modelprofiel

Llama 4 Maverick — illustration 1
Llama 4 Maverick: Meta's poging tot de extremen — massieve context, mixture-of-experts, open weights

Toen Meta eind 2024 Llama 4 Maverick aankondigde, las de specificatielijst als een verlanglijstje uit de architecturale debatten van de achttien maanden ervoor: 400 miljard parameters gerangschikt in een mixture-of-experts-topologie, een contextvenster van een miljoen tokens dat in de praktijk daadwerkelijk werkt, en het volledige open-weight-releasemodel dat Llama 3 tot een deployment-vaste waarde maakte. Maverick bevindt zich op het kruispunt van drie trends—MoE-efficiëntie waardoor je frontier-klasse intelligentie kunt draaien zonder frontier-klasse hardwarekosten, megacontext die analyse van volledige documenten in één call mogelijk maakt, en de voortdurende professionalisering van het open ecosysteem. Voor teams die evalueren of ze verkeer moeten routeren via de big-3 proprietary API's of moeten leunen op aggregator-infrastructuur, vertegenwoordigt Maverick een specifieke inzet: je waardeert architecturale transparantie, kostenvoorspelbaarheid in de lage tier, en je hebt workloads die daadwerkelijk een miljoen tokens aan geheugen nodig hebben.

Het model verschijnt op OpenRouter naast tweehonderd andere endpoints, maar het verdient zijn plaats op tokonomix omdat het iets levert wat de gesloten tuinen niet kunnen—of niet willen. OpenAI's extended-context-modellen blijven duur en ondoorzichtig over tokenverbruik op schaal. Anthropic's nieuwste aanbod topt in de praktijk ruim onder een miljoen tokens voor de meeste gebruikers. Google's context-experimenten blijven nauw gekoppeld aan Workspace-integraties. Maverick daarentegen geeft je een miljoen echte tokens, leesbare prijzen in de lage band, en de optie om morgen de weights te pullen als je besluit dat aggregator-routing niet langer past in je dreigingsmodel.

Trainingsverhaal en architecturale beslissingen

Meta bouwde Maverick op de lessen van de receptie van Llama 3—ontwikkelaars wilden meer context, lagere kosten per intelligente token, en betere meertalige prestaties zonder te hoeven routeren naar specialistische modellen. De 400B-MoE-architectuur activeert ruwweg 50-70 miljard parameters per forward pass, afhankelijk van de sparsity-gating-beslissingen die de router neemt. Dit is niet de grootste MoE in het wild—Google's interne experimenten en bepaalde onderzoeksprototypes gaan verder—maar het is de grootste open-weight MoE met een geloofwaardig productiescenario op dit capaciteitsniveau.

Het trainingscorpus helt sterk over naar meertalig. Meta gebruikte hun datapartnerschappen via WhatsApp-metadata, publieke webcrawls met betere niet-Engelse representatie, en gecureerde wetenschappelijke corpora in talen die ondergedeeld zijn door de big-3. Je merkt dit onmiddellijk wanneer je Hindi-technische documentatie of Braziliaans-Portugese juridische contracten ertegenaan gooit—Maverick valt niet uit elkaar zoals eerdere Llama-generaties deden. Het prefereert nog steeds Engels voor complexe redeneerketens, maar de degradatiecurve is zachter.

Het contextvenster van een miljoen tokens is geen marketingdamp. Meta publiceerde ablatiestudies die aantonen dat het model coherente aandacht handhaaft over 800k tokens met elegante degradatie voorbij die drempel. In de praktijk kun je het een technische handleiding van 300 pagina's voeren, een volledige dagexport van Slack, of zes maanden aan klantenservicetickets in één call en samenvattingen krijgen die pagina 12 en pagina 287 in dezelfde ademhaling refereren. De architectuur gebruikt een mix van roterende positie-embeddings en een aangepast attention-sink-mechanisme dat de eerste paar duizend tokens heet houdt terwijl het midden compresseert. Dit is belangrijk omdat veel megacontext-use cases een statische kennisbasis plus een kleine query inhouden—denk aan "hier zijn al onze interne docs, beantwoord nu deze vraag"—en Maverick's ontwerp optimaliseert precies dat toegangspatroon.

Waar Maverick schittert in productie-workflows

De duidelijkste fit is documentzware analyse waar je voorheen retrieval-augmented generation of multi-hop-orkestratie nodig had. Juridische teams die ontdekkingsdocumenten beoordelen, compliance-analisten die beleidshandleidingen kruislings refereren tegen transactielogs, onderzoeksteams die literatuuroverzichten synthetiseren—deze workflows klappen samen van multi-step-pipelines naar enkele LLM-calls. Een tokonomix-gebruiker draait Maverick tegen volledige klinische trialprotocollen, voert 400k tokens aan regelgevingsaanvragen in en vraagt het om inconsistenties te markeren met FDA-richtlijnen die nog eens 200k tokens beslaan. Het model hallucineert geen referenties omdat de referenties in context zitten. Het heeft geen vectordatabase nodig omdat de vectordatabase het contextvenster is.

Meertalige klantenservice is een andere natuurlijke laan. Als je actief bent in Latijns-Amerika, India en Zuidoost-Azië, laat Maverick je één modeldeployment onderhouden in plaats van te routeren naar taalspecifieke endpoints. De tool-calling-capaciteit is solide—niet zo gepolijst als GPT-4's function-calling, maar betrouwbaar genoeg dat je het kunt bekabelen met je CRM-API, je kennisbankzoekopdracht en je ticketingsysteem zonder constante retry-logica. De vision-component handelt veelvoorkomende supportscenario's af: productfoto's, screenshot-debugging, factuurverificatie. Het wint geen OCR-benchmarks, maar voor "klant stuurde een wazige foto van een beschadigde zending" haalt het de lat.

Code-zware contexten profiteren van de megacontext op manieren die teams die van kleinere vensters komen, verrassen. Je kunt Maverick een hele monorepo voeren—niet alleen een paar bestanden, maar de hele afhankelijkheidsgrafiek—en het vragen om te traceren hoe een configuratiewijziging in module A zich zal voortplanten naar module Z. Dit is geen vervanging voor statische analysetooling, maar het vangt de semantische afhankelijkheden die grep en AST-parsers missen. Een team gebruikt het voor incident response: dump de laatste zes uur aan applicatielogs, de relevante service-codebases en het on-call-runbook in context, en vraag dan wat waarschijnlijk kapot ging. Het model verbindt punten tussen stack traces, deployment-timestamps en code-opmerkingen op manieren die een menselijke engineer dertig minuten tab-switchen zouden kosten.

Reasoning-gemarkeerde capaciteit betekent dat Maverick chain-of-thought toont voor complexe problemen als je het correct prompt. Het is niet zo natuurlijk geneigd tot redeneertraces als o1-preview of Claude Opus, maar je kunt het verleiden met systeemprompts die stap-voor-stap-afbraken belonen. Dit is belangrijk voor workflows waar auditability niet optioneel is—financiële modelvalidatie, medische beslissingsondersteuning, alles dat voor een toezichthouder terecht kan komen die het werk van het model wil zien.

Waar Maverick niet past

Real-time latency-gevoelige applicaties worstelen met de MoE-architectuur en megacontext-overhead. First-token-latency op een miljoen-token-context zit in het bereik van meerdere seconden, zelfs op goede hardware. Als je een chatbot bouwt waar gebruikers sub-seconde replies verwachten, houd je contexten klein of kijk je elders. Het model is geoptimaliseerd voor throughput en cost-per-token, niet voor response-snelheid.

Zeer gespecialiseerde domeinen waar de big-3 hebben geïnvesteerd in aangepaste fine-tunes zullen Maverick overtreffen. Medische codering met ICD-10, juridische cite-checking in Amerikaanse case law, financiële statement-analyse onder GAAP—deze verticalen hebben proprietary modellen getraind op gecureerde datasets en afgestemd met expertfeedbackloops. Maverick's algemene meertalige corpus maakt het een generalist, wat betekent dat het de laatste 10 procent aan nauwkeurigheid mist in smalle experttaken.

Als je workflow grote volumes tekst genereert—contentmarketing, creatieve fictie, bulkvertaling—biedt Maverick's MoE-architectuur niet genoeg snelheidsvoordeel om de routingcomplexiteit te rechtvaardigen. Een dicht model met vergelijkbare parametercount zal vaak sneller en eenvoudiger te deployen zijn voor generatie-zware workloads. De MoE schittert wanneer je een miljoen tokens leest en een paar duizend schrijft, niet andersom.

Embeddings zijn niet Maverick's sterkte. Als je hoogwaardige vectorrepresentaties nodig hebt voor semantische zoekacties of clustering, zullen toegewijde embedding-modellen een generalist-LLM die in embedding-modus draait, overtreffen. Maverick kan embeddings produceren, maar het is inefficiënt en de kwaliteit rechtvaardigt de compute-kosten niet.

Vergelijking met naaste peers in het aggregator-landschap

Binnen de open-weight MoE-categorie concurreert Maverick primair met Mixtral-derivaten en de Qwen2.5-MoE-serie. Mixtral 8x22B blijft een werkpaard voor teams die MoE-efficiëntie willen zonder megacontext—zijn 64k-venster is genoeg voor de meeste taken, en de kleinere geactiveerde parametercount betekent snellere inferentie. Maverick ruilt die snelheid in voor contextdiepte en meertalig bereik. Als je mediaan context onder 100k tokens is en primair Engels, is Mixtral waarschijnlijk het scherpere gereedschap. Als je regelmatig tegen contextlimieten aanloopt of niet-Engels verkeer bedient, rechtvaardigt Maverick de overhead.

Qwen2.5-MoE-modellen van Alibaba bieden vergelijkbare meertalige prestaties en vergelijkbare MoE-efficiëntie, maar ze toppen op 128k context in de grootste publiekelijk beschikbare versies. De trainingsdata helt over naar Chinees en aangrenzende talen, waardoor Qwen beter past voor Azië-Pacific-workflows en Maverick beter past voor wereldwijde deployments die Europa en de Amerika's omvatten.

Tegen dichte modellen in dezelfde capaciteitsband hangt de vergelijking af van je contextbehoeften. Een 70B dicht model reageert sneller en deployt eenvoudiger dan Maverick, maar het kan geen miljoen tokens vasthouden. Als je architectuur al chunking- en retrieval-logica omvat, is het dichte model misschien de weg van de minste weerstand. Als je die complexiteit probeert te elimineren, is Maverick's contextvenster de reden dat het bestaat.

Gesloten modellen van de big-3 blijven competitief op ruwe kwaliteit voor short-context-taken. Claude Sonnet en GPT-4 Turbo zullen over het algemeen gepolijster proza produceren, beter omgaan met ambigue instructies, en eleganter herstellen van adversarial prompts. Maar geen van beide geeft je open weights, geen van beide biedt low-tier prijzen op dit capaciteitsniveau, en geen van beide laat je inferentie draaien op je eigen infrastructuur wanneer compliance of data residency het eist. Maverick probeert ze niet te verslaan op kwaliteit; het probeert een andere set trade-offs aan te bieden.

Kosten- en beschikbaarheidsdynamiek

Low-tier prijzen op OpenRouter plaatsen Maverick in dezelfde band als Llama 3.1 70B en andere mid-tier open modellen. Je betaalt significant minder per token dan een van de big-3 frontier-aanbiedingen, en de MoE-architectuur betekent dat je meer effectieve intelligentie per dollar krijgt dan een vergelijkbaar geprijsd dicht model. De vangst is altijd utilization—als je 10k-token-contexten stuurt, benut je de architectuur niet efficiënt, en een goedkoper dicht model zal je betere unit economics geven.

De open-weight-release betekent dat je een exit-pad hebt. Als je gebruik opschaalt tot het punt waarop aggregator-fees een line item worden, of als je te maken krijgt met regelgevende druk om zelf te hosten, kun je de weights pullen en Maverick op je eigen clusters draaien. Dit is niet triviaal—400B parameters in MoE-configuratie vereist nog steeds multi-GPU-setups en zorgvuldig geheugenbeheer—maar het is mogelijk op een manier die proprietary modellen nooit toestaan. Verschillende tokonomix-gebruikers behandelen OpenRouter als hun prototyping- en low-volume-omgeving, en hosten zelf zodra ze de workflow bewijzen.

Beschikbaarheid via een aggregator zoals OpenRouter betekent ook dat je de retry-logica, failover en rate-limit-handling van de aggregator erft. Je beheert geen API-keys voor meerdere providers of bouwt je eigen load-balancing-laag. Voor kleine teams is dit het verschil tussen een week besteden aan infrastructuur en een week besteden aan het daadwerkelijke product. De trade-off is minder controle over modelversioning en update-schema's—wanneer Meta een nieuwe Maverick-checkpoint verzendt, zal OpenRouter het uitrollen op hun tijdlijn, niet de jouwe.

Oordeel: wanneer je het hele document in context nodig hebt

Llama 4 Maverick bezet een specifieke maar waardevolle niche. Het is het model dat je kiest wanneer contextlimieten je knelpunt zijn geweest, wanneer je workload genoeg talen beslaat dat single-language specialisten een onderhoudslast worden, en wanneer low-tier prijzen genoeg uitmaken dat je het probleem niet gewoon naar de big-3 kunt gooien en het kunt declareren. De open weights geven je een hedge tegen vendor lock-in, en de MoE-architectuur geeft je frontier-aangrenzende intelligentie zonder frontier-aangrenzende kosten.

Het is niet het meest gepolijste model in het ecosysteem. Het is niet het snelste. Het gaat geen betere marketingcopy schrijven dan Claude of moeilijkere wiskundeproblemen oplossen dan o1. Maar als je het team bent dat steeds tegen 128k-tokenlimieten aanloopt, als je supporttickets in acht talen vertaalt, als je hele codebases of documentsets in één pass probeert te analyseren, is Maverick gebouwd voor precies dat probleem. Het vertegenwoordigt de volwassenwording van het open ecosysteem—niet langer alleen maar inhalen op proprietary modellen, maar architecturale keuzes maken die workloads bedienen die de gesloten tuinen deprioriteren. Voor de juiste workflow is dat meer waard dan nog een paar punten op een benchmark-leaderboard.

Llama 4 Maverick — illustration 2Llama 4 Maverick — illustration 3
Laatste automatische test
9 jun 2026 · 20:03 UTC · Snelheidstest
P50 latency
181 ms
P95 latency
189 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026