Welke modaliteiten ondersteunt het model?

Maverick verwerkt zowel tekst- als beeldinvoer en kan via function calling externe tools aanroepen. Daarmee is het inzetbaar in multimodale agent-architecturen.

Hoe verhoudt het zich tot andere modellen in de Llama 4-familie?

Binnen de familie is Maverick gepositioneerd als hoogcapaciteits-variant met focus op uitgebreide context en brede functionaliteit, wat het onderscheidt van lichtere varianten.

Kan ik het model integreren via een bestaande API-stack?

OpenRouter biedt een uniforme API die compatibel is met gangbare clients, waardoor integratie meestal beperkt blijft tot het wisselen van endpoint en modelnaam.

Wat zijn de belangrijkste aandachtspunten bij adoptie?

Houd rekening met kosten en latentie bij maximaal contextgebruik, en plan voor monitoring van tool-calls en multimodale invoer. Test daarnaast de meertalige output op uw specifieke doeltalen.

Tier A — Frontier

Draait in:Multi-regionGemaakt in:United States

OpenRouter

Llama 4 Maverick

Tier A — Frontier · 1.048576M tokens · 400B-MoE

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 24 mei 2026·Laatst gecontroleerd 24 mei 2026

Llama 4 Maverick is een groot taalmodel dat wordt aangeboden via het platform van OpenRouter, met een uitzonderlijk groot contextvenster van 1.048.576 tokens (ongeveer 1 miljoen tokens). Deze uitgebreide contextcapaciteit stelt het model in staat om coherentie te verwerken en te behouden over lange documenten, complexe codebases of uitgebreide gesprekken die de beperkingen van de meeste hedendaagse taalmodellen zouden overschrijden. Het model ondersteunt een uitgebreide reeks mogelijkheden, waaronder function calling (tools), verwerking van visuele input (vision), geavanceerde redeneertaken en meertalig begrip en generatie. Deze combinatie van functies positioneert het als een veelzijdige optie voor toepassingen die zowel geavanceerde analytische capaciteiten als multimodale interactie vereisen. De redeneerfunctionaliteit suggereert dat het model uitgebreide inferentietechnieken gebruikt om de prestaties bij complexe probleemoplossingstaken te verbeteren. Als onderdeel van de Llama 4 modelfamilie die toegankelijk is via OpenRouter, vertegenwoordigt Maverick een variant met hoge capaciteit, geoptimaliseerd voor scenario's waarin uitgebreid contextbehoud en diverse functionaliteit essentieel zijn. OpenRouter fungeert als tussenleverancier en biedt toegang tot verschillende taalmodellen via een uniforme API. De technische specificaties van het model geven aan dat het geschikt is voor zakelijke toepassingen, onderzoekstaken en ontwikkelworkflows die verwerking van aanzienlijke hoeveelheden informatie vereisen, met behoud van toegang tot tool-integratie en multimodale capaciteiten.

Test Llama 4 Maverick met je eigen vragen

Met een contextvenster van ruim een miljoen tokens en multimodale ondersteuning positioneert Llama 4 Maverick zich als werkpaard voor langlopende, complexe workloads.
— Tokonomix redactie

Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency120 runs

Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — Llama 4 Maverick

$0.1500 per 1M input-tokens

$0.6000 per 1M output-tokens

≈ $0.0002 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$0.1500

per 1M output-tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Sectie 03

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1105 / avg 645

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 04

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Contextvenster van ~1M tokensFunction calling ondersteundVerwerking van beeldinvoerGeavanceerde redeneercapaciteitenSterke meertalige dekkingToegankelijk via uniforme OpenRouter-APIGeschikt voor enterprise-workloadsCoherentie over lange documenten

Zwakke punten

Hoge kosten bij volledig contextgebruikLatentie groeit met lange promptsAfhankelijk van OpenRouter-beschikbaarheidKennisafkapdatum beperkt actualiteit

Sectie 05

Mogelijkheden

toolsvisionreasoningmultilingual

Sectie 06

Veelgestelde vragen

Ja, het contextvenster van ongeveer 1 miljoen tokens maakt het model bijzonder geschikt voor analyse van uitgebreide documenten, transcripten of complete codebases zonder agressieve chunking.

Voor teams die lange documenten, codebases en tool-gebruik willen combineren in één model, is Maverick via OpenRouter een solide A-tier keuze.
— Tokonomix benchmark samenvatting

Sectie 07

Beschikbaarheid

Hoe vaak dit model antwoordt als we het aanroepen — gemeten over echte API-aanvragen en live-tests in de afgelopen 30 dagen. Dit staat los van kwaliteit: deze cijfers laten alleen zien of het model reageert, niet hoe goed het antwoord is.

Afgelopen 7 dagen

—

Afgelopen 30 dagen

100.0%

n=73

Mediane responstijd

9,047ms

n=73

Gebaseerd op 433 metingen in de afgelopen 30 dagen.

Technische details

Alleen echte API-aanroepen en live-testverzoeken tellen mee — interne probes en benchmarkruns zijn uitgesloten.

Aanroepen met een eigen API-sleutel (BYOK) zijn uitgesloten: die fouten zijn sleutelspecifiek en geen teken van modelneergang.

Mislukte aanroepen worden NIET meegeteld in kwaliteitsscores — kwaliteit wordt gemeten op geslaagde responses. Beschikbaarheid en kwaliteit zijn onafhankelijke signalen.

Mediane responstijd (p50) over geslaagde aanroepen met een vastgelegde duur. Uitschieters trekken de mediaan minder dan het gemiddelde.

Totaal aanroepen (30d)

OK-reacties (30d)

Totaal aanroepen (7d)

OK-reacties (7d)

Sectie 08

Tokonomix benchmark-oordelen

● 2026-07-19

Llama 4 Maverick debuts with multimodal and reasoning capabilities

Llama 4 Maverick enters the benchmark arena as OpenRouter's latest offering, bringing significant new capabilities to the table. The model introduces tool usage, vision processing, reasoning abilities, and multilingual support—features absent from previous iterations. While comprehensive performance data across standard benchmarks remains limited in this initial window, the model demonstrates functional competency in its newly announced capabilities. The addition of vision processing expands potential use cases beyond text-only applications, while tool integration suggests practical utility for agent-based workflows. Reasoning capabilities indicate investment in more complex problem-solving tasks. Multilingual support broadens accessibility across language boundaries. As a first benchmark window, the model presents itself as a full-featured multimodal offering, though users should anticipate that performance characteristics will become clearer as more comprehensive testing data accumulates. The simultaneous introduction of multiple capability domains suggests an ambitious scope for this release. Organizations evaluating Llama 4 Maverick should consider their specific requirements around these new features while awaiting more detailed performance metrics across standard evaluation suites.

Quality

—

Latency p50

—

Test runs

✓ Vision processing enabled✓ Tool usage support added✓ Reasoning capabilities introduced✓ Multilingual support launched

Sectie 09

Volledig modelprofiel

Llama 4 Maverick: Meta's poging tot de extremen — massieve context, mixture-of-experts, open weights

Toen Meta eind 2024 Llama 4 Maverick aankondigde, las de specificatielijst als een verlanglijstje uit de architecturale debatten van de achttien maanden ervoor: 400 miljard parameters gerangschikt in een mixture-of-experts-topologie, een contextvenster van een miljoen tokens dat in de praktijk daadwerkelijk werkt, en het volledige open-weight-releasemodel dat Llama 3 tot een deployment-vaste waarde maakte. Maverick bevindt zich op het kruispunt van drie trends—MoE-efficiëntie waardoor je frontier-klasse intelligentie kunt draaien zonder frontier-klasse hardwarekosten, megacontext die analyse van volledige documenten in één call mogelijk maakt, en de voortdurende professionalisering van het open ecosysteem. Voor teams die evalueren of ze verkeer moeten routeren via de big-3 proprietary API's of moeten leunen op aggregator-infrastructuur, vertegenwoordigt Maverick een specifieke inzet: je waardeert architecturale transparantie, kostenvoorspelbaarheid in de lage tier, en je hebt workloads die daadwerkelijk een miljoen tokens aan geheugen nodig hebben.

Het model verschijnt op OpenRouter naast tweehonderd andere endpoints, maar het verdient zijn plaats op tokonomix omdat het iets levert wat de gesloten tuinen niet kunnen—of niet willen. OpenAI's extended-context-modellen blijven duur en ondoorzichtig over tokenverbruik op schaal. Anthropic's nieuwste aanbod topt in de praktijk ruim onder een miljoen tokens voor de meeste gebruikers. Google's context-experimenten blijven nauw gekoppeld aan Workspace-integraties. Maverick daarentegen geeft je een miljoen echte tokens, leesbare prijzen in de lage band, en de optie om morgen de weights te pullen als je besluit dat aggregator-routing niet langer past in je dreigingsmodel.

Trainingsverhaal en architecturale beslissingen

Meta bouwde Maverick op de lessen van de receptie van Llama 3—ontwikkelaars wilden meer context, lagere kosten per intelligente token, en betere meertalige prestaties zonder te hoeven routeren naar specialistische modellen. De 400B-MoE-architectuur activeert ruwweg 50-70 miljard parameters per forward pass, afhankelijk van de sparsity-gating-beslissingen die de router neemt. Dit is niet de grootste MoE in het wild—Google's interne experimenten en bepaalde onderzoeksprototypes gaan verder—maar het is de grootste open-weight MoE met een geloofwaardig productiescenario op dit capaciteitsniveau.

Het trainingscorpus helt sterk over naar meertalig. Meta gebruikte hun datapartnerschappen via WhatsApp-metadata, publieke webcrawls met betere niet-Engelse representatie, en gecureerde wetenschappelijke corpora in talen die ondergedeeld zijn door de big-3. Je merkt dit onmiddellijk wanneer je Hindi-technische documentatie of Braziliaans-Portugese juridische contracten ertegenaan gooit—Maverick valt niet uit elkaar zoals eerdere Llama-generaties deden. Het prefereert nog steeds Engels voor complexe redeneerketens, maar de degradatiecurve is zachter.

Het contextvenster van een miljoen tokens is geen marketingdamp. Meta publiceerde ablatiestudies die aantonen dat het model coherente aandacht handhaaft over 800k tokens met elegante degradatie voorbij die drempel. In de praktijk kun je het een technische handleiding van 300 pagina's voeren, een volledige dagexport van Slack, of zes maanden aan klantenservicetickets in één call en samenvattingen krijgen die pagina 12 en pagina 287 in dezelfde ademhaling refereren. De architectuur gebruikt een mix van roterende positie-embeddings en een aangepast attention-sink-mechanisme dat de eerste paar duizend tokens heet houdt terwijl het midden compresseert. Dit is belangrijk omdat veel megacontext-use cases een statische kennisbasis plus een kleine query inhouden—denk aan "hier zijn al onze interne docs, beantwoord nu deze vraag"—en Maverick's ontwerp optimaliseert precies dat toegangspatroon.

Waar Maverick schittert in productie-workflows

De duidelijkste fit is documentzware analyse waar je voorheen retrieval-augmented generation of multi-hop-orkestratie nodig had. Juridische teams die ontdekkingsdocumenten beoordelen, compliance-analisten die beleidshandleidingen kruislings refereren tegen transactielogs, onderzoeksteams die literatuuroverzichten synthetiseren—deze workflows klappen samen van multi-step-pipelines naar enkele LLM-calls. Een tokonomix-gebruiker draait Maverick tegen volledige klinische trialprotocollen, voert 400k tokens aan regelgevingsaanvragen in en vraagt het om inconsistenties te markeren met FDA-richtlijnen die nog eens 200k tokens beslaan. Het model hallucineert geen referenties omdat de referenties in context zitten. Het heeft geen vectordatabase nodig omdat de vectordatabase het contextvenster is.

Meertalige klantenservice is een andere natuurlijke laan. Als je actief bent in Latijns-Amerika, India en Zuidoost-Azië, laat Maverick je één modeldeployment onderhouden in plaats van te routeren naar taalspecifieke endpoints. De tool-calling-capaciteit is solide—niet zo gepolijst als GPT-4's function-calling, maar betrouwbaar genoeg dat je het kunt bekabelen met je CRM-API, je kennisbankzoekopdracht en je ticketingsysteem zonder constante retry-logica. De vision-component handelt veelvoorkomende supportscenario's af: productfoto's, screenshot-debugging, factuurverificatie. Het wint geen OCR-benchmarks, maar voor "klant stuurde een wazige foto van een beschadigde zending" haalt het de lat.

Code-zware contexten profiteren van de megacontext op manieren die teams die van kleinere vensters komen, verrassen. Je kunt Maverick een hele monorepo voeren—niet alleen een paar bestanden, maar de hele afhankelijkheidsgrafiek—en het vragen om te traceren hoe een configuratiewijziging in module A zich zal voortplanten naar module Z. Dit is geen vervanging voor statische analysetooling, maar het vangt de semantische afhankelijkheden die grep en AST-parsers missen. Een team gebruikt het voor incident response: dump de laatste zes uur aan applicatielogs, de relevante service-codebases en het on-call-runbook in context, en vraag dan wat waarschijnlijk kapot ging. Het model verbindt punten tussen stack traces, deployment-timestamps en code-opmerkingen op manieren die een menselijke engineer dertig minuten tab-switchen zouden kosten.

Reasoning-gemarkeerde capaciteit betekent dat Maverick chain-of-thought toont voor complexe problemen als je het correct prompt. Het is niet zo natuurlijk geneigd tot redeneertraces als o1-preview of Claude Opus, maar je kunt het verleiden met systeemprompts die stap-voor-stap-afbraken belonen. Dit is belangrijk voor workflows waar auditability niet optioneel is—financiële modelvalidatie, medische beslissingsondersteuning, alles dat voor een toezichthouder terecht kan komen die het werk van het model wil zien.

Waar Maverick niet past

Real-time latency-gevoelige applicaties worstelen met de MoE-architectuur en megacontext-overhead. First-token-latency op een miljoen-token-context zit in het bereik van meerdere seconden, zelfs op goede hardware. Als je een chatbot bouwt waar gebruikers sub-seconde replies verwachten, houd je contexten klein of kijk je elders. Het model is geoptimaliseerd voor throughput en cost-per-token, niet voor response-snelheid.

Zeer gespecialiseerde domeinen waar de big-3 hebben geïnvesteerd in aangepaste fine-tunes zullen Maverick overtreffen. Medische codering met ICD-10, juridische cite-checking in Amerikaanse case law, financiële statement-analyse onder GAAP—deze verticalen hebben proprietary modellen getraind op gecureerde datasets en afgestemd met expertfeedbackloops. Maverick's algemene meertalige corpus maakt het een generalist, wat betekent dat het de laatste 10 procent aan nauwkeurigheid mist in smalle experttaken.

Als je workflow grote volumes tekst genereert—contentmarketing, creatieve fictie, bulkvertaling—biedt Maverick's MoE-architectuur niet genoeg snelheidsvoordeel om de routingcomplexiteit te rechtvaardigen. Een dicht model met vergelijkbare parametercount zal vaak sneller en eenvoudiger te deployen zijn voor generatie-zware workloads. De MoE schittert wanneer je een miljoen tokens leest en een paar duizend schrijft, niet andersom.

Embeddings zijn niet Maverick's sterkte. Als je hoogwaardige vectorrepresentaties nodig hebt voor semantische zoekacties of clustering, zullen toegewijde embedding-modellen een generalist-LLM die in embedding-modus draait, overtreffen. Maverick kan embeddings produceren, maar het is inefficiënt en de kwaliteit rechtvaardigt de compute-kosten niet.

Vergelijking met naaste peers in het aggregator-landschap

Binnen de open-weight MoE-categorie concurreert Maverick primair met Mixtral-derivaten en de Qwen2.5-MoE-serie. Mixtral 8x22B blijft een werkpaard voor teams die MoE-efficiëntie willen zonder megacontext—zijn 64k-venster is genoeg voor de meeste taken, en de kleinere geactiveerde parametercount betekent snellere inferentie. Maverick ruilt die snelheid in voor contextdiepte en meertalig bereik. Als je mediaan context onder 100k tokens is en primair Engels, is Mixtral waarschijnlijk het scherpere gereedschap. Als je regelmatig tegen contextlimieten aanloopt of niet-Engels verkeer bedient, rechtvaardigt Maverick de overhead.

Qwen2.5-MoE-modellen van Alibaba bieden vergelijkbare meertalige prestaties en vergelijkbare MoE-efficiëntie, maar ze toppen op 128k context in de grootste publiekelijk beschikbare versies. De trainingsdata helt over naar Chinees en aangrenzende talen, waardoor Qwen beter past voor Azië-Pacific-workflows en Maverick beter past voor wereldwijde deployments die Europa en de Amerika's omvatten.

Tegen dichte modellen in dezelfde capaciteitsband hangt de vergelijking af van je contextbehoeften. Een 70B dicht model reageert sneller en deployt eenvoudiger dan Maverick, maar het kan geen miljoen tokens vasthouden. Als je architectuur al chunking- en retrieval-logica omvat, is het dichte model misschien de weg van de minste weerstand. Als je die complexiteit probeert te elimineren, is Maverick's contextvenster de reden dat het bestaat.

Gesloten modellen van de big-3 blijven competitief op ruwe kwaliteit voor short-context-taken. Claude Sonnet en GPT-4 Turbo zullen over het algemeen gepolijster proza produceren, beter omgaan met ambigue instructies, en eleganter herstellen van adversarial prompts. Maar geen van beide geeft je open weights, geen van beide biedt low-tier prijzen op dit capaciteitsniveau, en geen van beide laat je inferentie draaien op je eigen infrastructuur wanneer compliance of data residency het eist. Maverick probeert ze niet te verslaan op kwaliteit; het probeert een andere set trade-offs aan te bieden.

Kosten- en beschikbaarheidsdynamiek

Low-tier prijzen op OpenRouter plaatsen Maverick in dezelfde band als Llama 3.1 70B en andere mid-tier open modellen. Je betaalt significant minder per token dan een van de big-3 frontier-aanbiedingen, en de MoE-architectuur betekent dat je meer effectieve intelligentie per dollar krijgt dan een vergelijkbaar geprijsd dicht model. De vangst is altijd utilization—als je 10k-token-contexten stuurt, benut je de architectuur niet efficiënt, en een goedkoper dicht model zal je betere unit economics geven.

De open-weight-release betekent dat je een exit-pad hebt. Als je gebruik opschaalt tot het punt waarop aggregator-fees een line item worden, of als je te maken krijgt met regelgevende druk om zelf te hosten, kun je de weights pullen en Maverick op je eigen clusters draaien. Dit is niet triviaal—400B parameters in MoE-configuratie vereist nog steeds multi-GPU-setups en zorgvuldig geheugenbeheer—maar het is mogelijk op een manier die proprietary modellen nooit toestaan. Verschillende tokonomix-gebruikers behandelen OpenRouter als hun prototyping- en low-volume-omgeving, en hosten zelf zodra ze de workflow bewijzen.

Beschikbaarheid via een aggregator zoals OpenRouter betekent ook dat je de retry-logica, failover en rate-limit-handling van de aggregator erft. Je beheert geen API-keys voor meerdere providers of bouwt je eigen load-balancing-laag. Voor kleine teams is dit het verschil tussen een week besteden aan infrastructuur en een week besteden aan het daadwerkelijke product. De trade-off is minder controle over modelversioning en update-schema's—wanneer Meta een nieuwe Maverick-checkpoint verzendt, zal OpenRouter het uitrollen op hun tijdlijn, niet de jouwe.

Oordeel: wanneer je het hele document in context nodig hebt

Llama 4 Maverick bezet een specifieke maar waardevolle niche. Het is het model dat je kiest wanneer contextlimieten je knelpunt zijn geweest, wanneer je workload genoeg talen beslaat dat single-language specialisten een onderhoudslast worden, en wanneer low-tier prijzen genoeg uitmaken dat je het probleem niet gewoon naar de big-3 kunt gooien en het kunt declareren. De open weights geven je een hedge tegen vendor lock-in, en de MoE-architectuur geeft je frontier-aangrenzende intelligentie zonder frontier-aangrenzende kosten.

Het is niet het meest gepolijste model in het ecosysteem. Het is niet het snelste. Het gaat geen betere marketingcopy schrijven dan Claude of moeilijkere wiskundeproblemen oplossen dan o1. Maar als je het team bent dat steeds tegen 128k-tokenlimieten aanloopt, als je supporttickets in acht talen vertaalt, als je hele codebases of documentsets in één pass probeert te analyseren, is Maverick gebouwd voor precies dat probleem. Het vertegenwoordigt de volwassenwording van het open ecosysteem—niet langer alleen maar inhalen op proprietary modellen, maar architecturale keuzes maken die workloads bedienen die de gesloten tuinen deprioriteren. Voor de juiste workflow is dat meer waard dan nog een paar punten op een benchmark-leaderboard.

Laatste automatische test

25 jul 2026 · 02:02 UTC · Snelheidstest

P50 latency

181 ms

P95 latency

534 ms

Fouten

0 / 6 runs

Laatst beoordeeld door Tokonomix-team·24 mei 2026