Aller au contenu
Tier A — Frontier
Fonctionne en :Multi-regionCréé en :United States
OpenRouter

Llama 4 Maverick

Tier A — Frontier · 1.048576M tokens · 400B-MoE

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Llama 4 Maverick est un grand modèle de langage proposé via la plateforme d'OpenRouter, doté d'une fenêtre de contexte exceptionnellement large de 1 048 576 tokens (environ 1 million de tokens). Cette capacité de contexte étendue permet au modèle de traiter et de maintenir la cohérence sur des documents volumineux, des bases de code complexes ou de longs fils de conversation qui dépasseraient les limites de la plupart des modèles de langage contemporains. Le modèle prend en charge un ensemble complet de fonctionnalités, notamment l'appel de fonctions (outils), le traitement d'entrées visuelles (vision), les tâches de raisonnement avancées ainsi que la compréhension et la génération multilingues. Cette combinaison de caractéristiques en fait une option polyvalente pour les applications nécessitant à la fois des capacités analytiques sophistiquées et une interaction multimodale. La fonctionnalité de raisonnement suggère que le modèle recourt à des techniques d'inférence étendues pour améliorer ses performances sur des tâches complexes de résolution de problèmes. Faisant partie de la famille de modèles Llama 4 accessible via OpenRouter, Maverick représente une variante haute capacité optimisée pour les scénarios où la rétention de contexte étendue et la diversité fonctionnelle sont essentielles. OpenRouter agit comme un fournisseur intermédiaire, offrant un accès à divers modèles de langage via une API unifiée. Les spécifications techniques du modèle indiquent qu'il convient aux applications d'entreprise, aux tâches de recherche et aux flux de développement nécessitant le traitement de volumes importants d'informations tout en conservant l'accès à l'intégration d'outils et aux capacités multimodales.

Llama 4 Maverick se distingue par une fenêtre de contexte d'environ un million de tokens, ce qui en fait un candidat naturel pour les charges de travail documentaires massives et les bases de code étendues.

Synthèse éditoriale Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9568 runs
146166831914713623505-2406-09ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Llama 4 Maverick
$0.1500 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1500
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1105 / avg 692
1350179

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Contexte d'environ 1M de tokensAppel de fonctions natifEntrée visuelle multimodaleRaisonnement étendu intégréCompréhension multilingue solideAccès unifié via OpenRouterAnalyse de documents longsAdapté aux workflows agentiques

Faiblesses

Coût élevé sur très longs contextesLatence accrue avec contexte saturéPas de modalité audio nativeConnaissances figées à une date de coupure
Section 05

Capacités

toolsvisionreasoningmultilingual
Section 06

Questions fréquentes

Techniquement oui, mais en pratique la latence et le coût augmentent fortement au-delà de quelques centaines de milliers de tokens. Il est recommandé de combiner une stratégie de RAG avec ce contexte étendu plutôt que de tout injecter systématiquement.

Un modèle polyvalent de tier A, particulièrement convaincant lorsque le contexte long, la vision et l'appel d'outils doivent cohabiter dans un même pipeline.

Verdict Tokonomix
Section 07

Verdicts benchmark Tokonomix

2026-06-07

Llama 4 Maverick adds tools, vision, reasoning, and multilingual support

Llama 4 Maverick has expanded significantly from its previous release, adding four major capability categories: tool usage, vision processing, reasoning tasks, and multilingual support. These additions transform the model from a text-focused solution into a comprehensive multimodal system. The integration of vision capabilities allows the model to process and analyze images alongside text, while the new reasoning features enable more complex problem-solving tasks. Tool support enables function calling and structured interactions with external systems, and multilingual capabilities extend the model's reach beyond English-only applications. These enhancements position Llama 4 Maverick as a versatile option for developers building applications that require diverse input modalities and advanced cognitive tasks. The expansion represents a substantial architectural evolution, bringing the model in line with contemporary AI assistant requirements. Users migrating from the previous version should note the broader application scope, though the impact on baseline text generation performance remains to be measured in future benchmark windows. The additions make this release particularly relevant for teams building agents, multimodal applications, or internationally-focused products.

Quality

Latency p50

Test runs

0

Vision support added Tool calling now available Reasoning capabilities introduced Multilingual support expanded
Section 08

Profil complet du modèle

Llama 4 Maverick — illustration 1
Llama 4 Maverick : l'offensive de Meta sur les extrêmes — contexte massif, mixture-of-experts, poids ouverts

Lorsque Meta a annoncé Llama 4 Maverick fin 2024, la fiche technique ressemblait à une liste de souhaits issue des débats architecturaux des dix-huit mois précédents : 400 milliards de paramètres organisés selon une topologie mixture-of-experts, une fenêtre de contexte d'un million de tokens qui fonctionne réellement en pratique, et le modèle de diffusion en poids ouverts qui a fait de Llama 3 un pilier du déploiement. Maverick se situe à l'intersection de trois tendances : l'efficacité MoE qui permet d'exécuter une intelligence de niveau frontier sans les coûts matériels du frontier, le mégacontexte qui rend l'analyse documentaire en un seul appel réalisable, et la professionnalisation continue de l'écosystème ouvert. Pour les équipes qui évaluent s'il faut router le trafic via les API propriétaires des trois grands ou s'appuyer sur une infrastructure d'agrégation, Maverick représente un pari spécifique : vous valorisez la transparence architecturale, la prévisibilité des coûts dans le segment bas, et vous avez des charges de travail qui nécessitent réellement un million de tokens de mémoire.

Le modèle apparaît sur OpenRouter aux côtés de deux cents autres endpoints, mais il mérite sa place sur tokonomix car il offre quelque chose que les jardins fermés ne peuvent pas — ou ne veulent pas — offrir. Les modèles à contexte étendu d'OpenAI restent coûteux et opaques quant à la consommation de tokens à grande échelle. Les dernières offres d'Anthropic plafonnent bien en dessous d'un million de tokens en pratique pour la plupart des utilisateurs. Les expérimentations de contexte de Google restent étroitement couplées aux intégrations Workspace. Maverick, en revanche, vous donne un million de tokens réels, une tarification lisible dans le segment bas, et l'option de récupérer les poids demain si vous décidez que le routage par agrégateur ne correspond plus à votre modèle de menace.

Historique d'entraînement et décisions architecturales

Meta a construit Maverick sur les leçons de la réception de Llama 3 : les développeurs voulaient plus de contexte, un coût par token intelligent inférieur, et de meilleures performances multilingues sans avoir besoin de router vers des modèles spécialisés. L'architecture 400B-MoE active environ 50 à 70 milliards de paramètres par passe avant, selon les décisions de gating de sparsité que prend le routeur. Ce n'est pas le plus grand MoE en circulation — les expérimentations internes de Google et certains prototypes de recherche vont plus loin — mais c'est le plus grand MoE à poids ouverts avec une histoire de production crédible à ce niveau de capacité.

Le corpus d'entraînement penche fortement vers le multilingue. Meta a utilisé ses partenariats de données à travers les métadonnées WhatsApp, les crawls web publics avec une meilleure représentation non anglaise, et des corpus scientifiques curés dans des langues sous-représentées par les trois grands. Vous le remarquez immédiatement lorsque vous lui soumettez de la documentation technique en hindi ou des contrats juridiques en portugais brésilien — Maverick ne s'effondre pas comme le faisaient les générations Llama antérieures. Il préfère toujours l'anglais pour les chaînes de raisonnement complexes, mais la courbe de dégradation est plus douce.

La fenêtre de contexte d'un million de tokens n'est pas de la vapeur marketing. Meta a publié des études d'ablation montrant que le modèle maintient une attention cohérente sur 800 000 tokens avec une dégradation gracieuse au-delà de ce seuil. En pratique, vous pouvez lui fournir un manuel technique de 300 pages, l'export d'une journée complète de Slack, ou six mois de tickets de support client en un seul appel et obtenir des résumés qui référencent la page 12 et la page 287 dans le même souffle. L'architecture utilise un mélange d'embeddings de position rotatifs et un mécanisme d'attention sink personnalisé qui garde les premiers milliers de tokens chauds tout en permettant au milieu de se compresser. Cela importe car de nombreux cas d'usage de mégacontexte impliquent une base de connaissances statique plus une petite requête — pensez « voici tous nos docs internes, maintenant répondez à cette question » — et la conception de Maverick optimise exactement ce modèle d'accès.

Où Maverick excelle dans les workflows de production

L'adéquation la plus claire concerne l'analyse lourde en documents où vous aviez auparavant besoin de génération augmentée par récupération ou d'orchestration multi-hop. Les équipes juridiques examinant des documents de discovery, les analystes de conformité croisant des manuels de politique avec des journaux de transactions, les équipes de recherche synthétisant des revues de littérature — ces workflows s'effondrent de pipelines multi-étapes en appels LLM uniques. Un utilisateur tokonomix exécute Maverick contre des protocoles complets d'essais cliniques, alimentant 400 000 tokens de dépôts réglementaires et lui demandant de signaler les incohérences avec les directives FDA qui s'étendent sur 200 000 tokens supplémentaires. Le modèle n'hallucine pas de références car les références sont présentes dans le contexte. Il n'a pas besoin d'une base de données vectorielle car la base de données vectorielle est la fenêtre de contexte.

Le support client multilingue est une autre voie naturelle. Si vous opérez en Amérique latine, en Inde et en Asie du Sud-Est, Maverick vous permet de maintenir un seul déploiement de modèle au lieu de router vers des endpoints spécifiques à chaque langue. La capacité d'appel d'outils est solide — pas aussi polie que le function-calling de GPT-4, mais suffisamment fiable pour que vous puissiez le connecter à votre API CRM, votre recherche de base de connaissances et votre système de ticketing sans logique de retry constante. Le composant vision gère les scénarios de support courants : photos de produits, débogage de captures d'écran, vérification de factures. Il ne gagne aucun benchmark OCR, mais pour « le client a envoyé une photo floue d'un envoi endommagé », il passe la barre.

Les contextes lourds en code bénéficient du mégacontexte de manières qui surprennent les équipes venant de fenêtres plus petites. Vous pouvez alimenter Maverick avec un monorepo entier — pas seulement quelques fichiers, mais le graphe de dépendances complet — et lui demander de tracer comment un changement de configuration dans le module A se propagera au module Z. Ce n'est pas un remplacement pour les outils d'analyse statique, mais il attrape les dépendances sémantiques que grep et les parsers AST manquent. Une équipe l'utilise pour la réponse aux incidents : déverser les six dernières heures de logs applicatifs, les codebases de services pertinents et le runbook d'astreinte dans le contexte, puis demander ce qui s'est probablement cassé. Le modèle connecte des points à travers les stack traces, les timestamps de déploiement et les commentaires de code de manières qui prendraient à un ingénieur humain trente minutes de basculement entre onglets.

La capacité marquée pour le raisonnement signifie que Maverick montrera une chaîne de pensée pour les problèmes complexes si vous le promptez correctement. Il n'est pas aussi naturellement enclin aux traces de raisonnement que o1-preview ou Claude Opus, mais vous pouvez l'inciter avec des prompts système qui récompensent les décompositions étape par étape. Cela importe pour les workflows où l'auditabilité n'est pas optionnelle — validation de modèles financiers, aide à la décision médicale, tout ce qui pourrait finir devant un régulateur qui veut voir le travail du modèle.

Où Maverick ne convient pas

Les applications sensibles à la latence en temps réel peinent avec l'architecture MoE et la surcharge du mégacontexte. La latence du premier token sur un contexte d'un million de tokens se situe dans la gamme de plusieurs secondes même sur du bon matériel. Si vous construisez un chatbot où les utilisateurs attendent des réponses sous la seconde, vous gardez soit les contextes petits soit vous regardez ailleurs. Le modèle est optimisé pour le débit et le coût par token, pas pour la vitesse de réponse.

Les domaines hautement spécialisés où les trois grands ont investi dans des fine-tunes personnalisés surpasseront Maverick. Le codage médical avec ICD-10, la vérification de citations juridiques dans la jurisprudence américaine, l'analyse de états financiers sous GAAP — ces verticales ont des modèles propriétaires entraînés sur des datasets curés et ajustés avec des boucles de feedback d'experts. Le corpus multilingue général de Maverick en fait un généraliste, ce qui signifie qu'il manque les derniers 10 pour cent de précision dans les tâches expertes étroites.

Si votre workflow implique la génération de grands volumes de texte — marketing de contenu, fiction créative, traduction en masse — l'architecture MoE de Maverick ne fournit pas assez d'avantage de vitesse pour justifier la complexité de routage. Un modèle dense à nombre de paramètres similaire sera souvent plus rapide et plus simple à déployer pour les charges de travail lourdes en génération. Le MoE brille quand vous lisez un million de tokens et écrivez quelques milliers, pas l'inverse.

Les embeddings ne sont pas le point fort de Maverick. Si vous avez besoin de représentations vectorielles de haute qualité pour la recherche sémantique ou le clustering, les modèles d'embedding dédiés surpasseront un LLM généraliste fonctionnant en mode embedding. Maverick peut produire des embeddings, mais c'est inefficace et la qualité ne justifie pas le coût de calcul.

Comparaison aux pairs les plus proches dans le paysage des agrégateurs

Dans la catégorie MoE à poids ouverts, Maverick est principalement en concurrence avec les dérivés Mixtral et la série Qwen2.5-MoE. Mixtral 8x22B reste un cheval de bataille pour les équipes qui veulent l'efficacité MoE sans mégacontexte — sa fenêtre de 64k est suffisante pour la plupart des tâches, et le nombre de paramètres activés plus petit signifie une inférence plus rapide. Maverick échange cette vitesse contre la profondeur de contexte et la portée multilingue. Si votre contexte médian est inférieur à 100 000 tokens et principalement en anglais, Mixtral est probablement l'outil le plus affûté. Si vous heurtez régulièrement les limites de contexte ou servez du trafic non anglais, Maverick justifie la surcharge.

Les modèles Qwen2.5-MoE d'Alibaba offrent des performances multilingues comparables et une efficacité MoE similaire, mais ils plafonnent à 128 000 tokens de contexte dans les versions les plus grandes disponibles publiquement. Les données d'entraînement penchent vers le chinois et les langues adjacentes, faisant de Qwen un meilleur choix pour les workflows Asie-Pacifique et de Maverick un meilleur choix pour les déploiements mondiaux qui incluent l'Europe et les Amériques.

Contre les modèles denses dans la même bande de capacité, la comparaison dépend de vos besoins de contexte. Un modèle dense de 70B répondra plus rapidement et se déploiera plus simplement que Maverick, mais il ne peut pas contenir un million de tokens. Si votre architecture inclut déjà la logique de chunking et de récupération, le modèle dense pourrait être le chemin de moindre résistance. Si vous essayez d'éliminer cette complexité, la fenêtre de contexte de Maverick est la raison pour laquelle il existe.

Les modèles fermés des trois grands restent compétitifs sur la qualité brute pour les tâches à contexte court. Claude Sonnet et GPT-4 Turbo produiront généralement une prose plus polie, géreront mieux les instructions ambiguës et récupéreront plus gracieusement des prompts adversariaux. Mais aucun ne vous donne de poids ouverts, aucun n'offre de tarification segment bas à ce niveau de capacité, et aucun ne vous permet d'exécuter l'inférence sur votre propre infrastructure quand la conformité ou la résidence des données l'exige. Maverick n'essaie pas de les battre sur la qualité ; il essaie d'offrir un ensemble différent de compromis.

Dynamiques de coût et de disponibilité

La tarification segment bas sur OpenRouter place Maverick dans la même bande que Llama 3.1 70B et d'autres modèles ouverts de milieu de gamme. Vous payez significativement moins par token que n'importe laquelle des offres frontier des trois grands, et l'architecture MoE signifie que vous obtenez plus d'intelligence effective par dollar qu'un modèle dense à prix comparable. Le piège est toujours l'utilisation — si vous envoyez des contextes de 10 000 tokens, vous n'exploitez pas l'architecture efficacement, et un modèle dense moins cher vous donnera de meilleures économies unitaires.

La diffusion en poids ouverts signifie que vous avez une voie de sortie. Si votre utilisation se développe au point où les frais d'agrégateur deviennent un poste budgétaire, ou si vous faites face à une pression réglementaire pour auto-héberger, vous pouvez récupérer les poids et exécuter Maverick sur vos propres clusters. Ce n'est pas trivial — 400 milliards de paramètres en configuration MoE nécessitent toujours des configurations multi-GPU et une gestion mémoire soigneuse — mais c'est possible d'une manière que les modèles propriétaires ne permettent jamais. Plusieurs utilisateurs tokonomix traitent OpenRouter comme leur environnement de prototypage et de faible volume, puis auto-hébergent une fois qu'ils ont validé le workflow.

La disponibilité via un agrégateur comme OpenRouter signifie également que vous héritez de la logique de retry, du failover et de la gestion des limites de taux de l'agrégateur. Vous ne gérez pas les clés API pour plusieurs fournisseurs ni ne construisez votre propre couche de load-balancing. Pour les petites équipes, c'est la différence entre passer une semaine sur l'infrastructure et passer une semaine sur le produit réel. Le compromis est moins de contrôle sur le versioning du modèle et les calendriers de mise à jour — quand Meta livre un nouveau checkpoint Maverick, OpenRouter le déploiera selon leur calendrier, pas le vôtre.

Verdict : quand vous avez besoin de tout le document en contexte

Llama 4 Maverick occupe une niche spécifique mais précieuse. C'est le modèle que vous choisissez quand les limites de contexte ont été votre goulot d'étranglement, quand votre charge de travail couvre assez de langues pour que les spécialistes monolangues deviennent un fardeau de maintenance, et quand la tarification segment bas importe assez pour que vous ne puissiez pas simplement jeter le problème aux trois grands et le mettre en note de frais. Les poids ouverts vous donnent une couverture contre le verrouillage fournisseur, et l'architecture MoE vous donne une intelligence adjacente au frontier sans les coûts adjacents au frontier.

Ce n'est pas le modèle le plus poli de l'écosystème. Ce n'est pas le plus rapide. Il ne va pas écrire de meilleures copies marketing que Claude ou résoudre des problèmes mathématiques plus difficiles que o1. Mais si vous êtes l'équipe qui continue de heurter les limites de 128 000 tokens, si vous traduisez des tickets de support dans huit langues, si vous essayez d'analyser des codebases ou des ensembles de documents entiers en une seule passe, Maverick est construit exactement pour ce problème. Il représente la maturation de l'écosystème ouvert — ne se contentant plus de rattraper les modèles propriétaires, mais faisant des choix architecturaux qui servent des charges de travail que les jardins fermés dé-priorisent. Pour le bon workflow, cela vaut plus que quelques points supplémentaires sur un classement de benchmark.

Llama 4 Maverick — illustration 2Llama 4 Maverick — illustration 3
Dernier test automatisé
9 juin 2026 · 20:03 UTC · Benchmark de vitesse
Latence P50
181 ms
Latence P95
189 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026