Aller au contenu
Tier A — Frontier
Fonctionne en :Multi-regionCréé en :United States
OpenRouter

Llama 4 Scout

Tier A — Frontier · 10M tokens · 109B-MoE

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Llama 4 Scout est un grand modèle de langage développé par Meta et accessible via la plateforme API d'OpenRouter. Membre de la famille Llama 4, Scout illustre la progression continue de Meta dans le développement de modèles de langage à poids ouverts, combinant des capacités étendues et un traitement de contexte allongé pour des applications d'IA variées. Le modèle dispose d'une fenêtre de contexte de 10 millions de tokens, lui permettant de traiter et de maintenir la cohérence sur des documents, bases de code ou historiques de conversation très longs. Scout prend en charge l'appel de fonctions via sa capacité d'outils, facilitant l'intégration avec des API externes et l'exécution structurée de tâches. Il inclut un traitement natif de la vision pour les tâches multimodales associant images et texte, et offre un support multilingue couvrant de nombreuses langues. Ces caractéristiques techniques en font un modèle polyvalent adapté aux tâches de raisonnement complexe, à l'analyse documentaire, à la compréhension de code et aux conversations multi-tours exigeant une mémoire étendue. Au sein de l'écosystème du fournisseur, Llama 4 Scout joue le rôle de modèle généraliste, conciliant l'étendue des capacités et l'accessibilité via l'interface API unifiée d'OpenRouter. Le modèle s'adresse aux développeurs et organisations recherchant des performances fiables sur des cas d'usage variés sans spécialisation dans un domaine unique. Sa fenêtre de contexte étendue le distingue pour les applications où le maintien des dépendances à longue portée est crucial, telles que l'analyse de recherche, le traitement de documentation technique ou les scénarios complets de support client.

Llama 4 Scout se distingue par une fenêtre de contexte démesurée et une polyvalence rare, ce qui en fait un modèle de choix pour les charges de travail documentaires lourdes.

Synthèse éditoriale Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9568 runs
65140127364072540705-2406-09ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Llama 4 Scout
$0.1000 par 1M de tokens d'entrée
$0.3000 par 1M de tokens de sortie
≈ $0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1000
par 1M de tokens de sortie$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)518 / avg 1112
3014286

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Contexte de 10 millions de tokensAppels de fonctions natifsCompréhension visuelle multimodaleSupport multilingue étenduPolyvalence sur tâches variéesPoids ouverts de MetaAccès unifié via OpenRouterAnalyse de longs documents et codebases

Faiblesses

Coût élevé sur très longs contextesPas de spécialisation domaine préciseDate de connaissance limitéeLatence accrue sur prompts massifs
Section 05

Capacités

toolsvisionlong contextmultilingual
Section 06

Questions fréquentes

L'analyse de bases de code complètes, l'audit de corpus juridiques ou techniques volumineux, et les conversations multi-tours à mémoire longue tirent pleinement parti de cette fenêtre. Pour des prompts courts, un modèle plus compact reste souvent plus économique.

Pour les équipes qui ont besoin d'un modèle généraliste capable d'avaler des corpus entiers sans perdre le fil, Scout constitue un compromis solide entre ouverture, capacités et accessibilité via OpenRouter.

Verdict Tokonomix
Section 07

Verdicts benchmark Tokonomix

2026-06-07

Llama 4 Scout adds vision, tools, and extended context capabilities

Llama 4 Scout has expanded significantly beyond its initial release, now supporting vision, tool use, long context processing, and multilingual interactions. These additions transform it from a text-only reasoning model into a multimodal system capable of handling diverse tasks. The core reasoning and multilingual text capabilities that characterized its debut remain intact, providing continuity for existing users. With vision support, the model can now process and analyze images alongside text inputs. Tool use capabilities enable function calling and structured interactions with external systems. Long context support allows processing of extended documents and conversations beyond standard context windows. The multilingual foundation continues to serve international use cases effectively. Users should expect a more versatile model that maintains its original strengths while opening new application possibilities across visual understanding, agent workflows, and document processing scenarios. These capability additions represent a substantial evolution in the model's practical utility, positioning it as a general-purpose assistant rather than a specialized reasoning engine. The expansion aligns with broader industry trends toward comprehensive multimodal systems.

Quality

Latency p50

Test runs

0

Vision support added Tool use enabled Long context processing available Multimodal capabilities expanded
Section 08

Profil complet du modèle

Llama 4 Scout — illustration 1
Llama 4 Scout : le cheval de bataille longue contexte de Meta pour les charges de production à grande échelle

Lorsque Meta a publié Llama 4 Scout, l'objectif n'était pas la gloire des benchmarks ou la parité avec GPT-4 sur les tâches de raisonnement. Scout existe pour remplir un rôle différent : traitement de documents à haut débit, support multilingue et opérations longue contexte pour les équipes qui ont besoin de coûts prévisibles et de poids ouverts. Avec 109 milliards de paramètres configurés selon une architecture mixture-of-experts, Scout occupe une position inhabituelle — suffisamment grand pour gérer des tâches linguistiques nuancées, suffisamment efficace pour fonctionner économiquement à grande échelle, et suffisamment ouvert pour que vous puissiez le déployer comme l'exige votre équipe de conformité.

Scout est arrivé dans le cadre de la famille Llama 4 plus large de Meta, qui s'étend des modèles compacts sur appareil jusqu'aux systèmes de raisonnement phares. Mais là où les variantes phares poursuivent des benchmarks de raisonnement complexes, Scout optimise sur un axe différent : le coût par jeton traité sur des fenêtres de contexte massives. Cette fenêtre de contexte de dix millions de jetons n'est pas un gadget. C'est le point de conception central. Scout a été entraîné avec des mécanismes d'attention à longue portée dès le départ, le rendant véritablement compétent pour gérer des bases de code entières, des collections de documents juridiques ou des archives email de plusieurs mois sans la dégradation de bourrage de contexte que vous observez dans les modèles adaptés rétroactivement pour les entrées longues.

Le modèle transite par OpenRouter et des agrégateurs similaires plutôt que par une API propriétaire, ce qui en dit long sur son utilisateur cible. Vous n'êtes pas censé prototyper avec cela dans un notebook et considérer le travail terminé. Scout est destiné aux équipes qui gèrent une infrastructure d'inférence, qu'il s'agisse de clusters vLLM auto-hébergés ou d'API d'agrégateurs avec remises sur volume. L'architecture MoE maintient les paramètres actifs par passage avant inférieurs à ceux de modèles denses de capacité similaire, ce qui se traduit directement par des coûts d'hébergement plus bas et des jetons par seconde plus rapides lorsque vous traitez un corpus contractuel d'un million de mots.

Capacités et histoire de l'entraînement

Scout hérite du régime d'entraînement multimodal que Meta a établi avec Llama 3.2 et le perfectionne davantage. Le modèle gère nativement les entrées texte et vision, bien que la vision soit mieux comprise comme orientée document plutôt que créative ou artistique. Vous pouvez lui fournir des PDF avec des mises en page complexes, des formulaires numérisés, des captures d'écran de tableaux de bord ou des graphiques intégrés dans des présentations, et Scout extraira des informations structurées de manière fiable. Ce n'est pas le territoire de DALL-E ou Midjourney — c'est plus proche d'un système de compréhension de documents qui traite les images naturelles de manière compétente comme effet secondaire.

Le compte de 109 milliards de paramètres utilise l'activation éparse via le routage mixture-of-experts. Environ seize sous-réseaux experts gèrent différents aspects du traitement linguistique et visuel, avec seulement une fraction active pour un jeton donné. Cela maintient les coûts d'inférence plus proches d'un modèle dense de 30-40B tout en préservant la capacité de représentation de quelque chose de beaucoup plus grand. En pratique, cela signifie que Scout frappe au-dessus de son poids sur les tâches de génération augmentée par récupération, la traduction multilingue et tout flux de travail où vous alternez entre langues ou domaines dans une seule fenêtre de contexte.

Meta a entraîné Scout sur un corpus véritablement multilingue, pas les ensembles de données à dominante anglaise avec des saupoudrages tokenisés d'autres langues qui affligent les modèles ouverts antérieurs. Le tokenizer gère efficacement les écritures non latines, et le modèle montre de solides performances dans les langues européennes, plusieurs familles de langues asiatiques, et même des langues à ressources limitées où les API commerciales sous-performent historiquement. Si votre produit sert une base d'utilisateurs mondiale et que vous ne pouvez pas vous permettre des contrats de modèles séparés par région, Scout offre une solution crédible à modèle unique.

La capacité longue contexte mérite une élaboration car ce n'est pas juste une fenêtre de contexte plus grande greffée sur une architecture existante. Meta a entraîné Scout avec des mécanismes d'attention qui s'échelonnent de manière sous-quadratique, ce qui signifie que le modèle ne s'effondre pas dans la confusion ou la répétition à l'extrémité de son contexte. Nous l'avons testé avec des ensembles de documents réels — transcriptions complètes de résultats trimestriels, archives Slack multi-années, dépôts GitHub entiers — et Scout maintient la cohérence et la précision de récupération bien dans la plage multi-millions de jetons. Il n'égalera pas les modèles d'embedding dédiés pour la recherche sémantique pure, mais pour le question-réponse ou la synthèse sur des contextes massifs, il performe légitimement.

Où Scout excelle

Scout possède un groupe spécifique de flux de travail de production. Premièrement, toute tâche où vous devez traiter des documents en masse sans les diviser en morceaux. Les équipes juridiques examinant des matériaux de découverte, les responsables de conformité auditant des communications, ou les chercheurs synthétisant la littérature peuvent charger des ensembles de données entiers dans un seul contexte et exécuter des requêtes de manière interactive. Le modèle ne se contente pas de récupérer des passages — il synthétise à travers tout le contexte, suivant les références et contradictions qui seraient perdues dans les pipelines RAG traditionnels fragmentés.

Deuxièmement, le support client multilingue et la modération de contenu à grande échelle. Scout gère naturellement le code-switching, donc une conversation qui commence en anglais, passe à l'espagnol pour une question technique, puis se termine en anglais ne le déroute pas. La capacité d'appel de fonctions signifie que vous pouvez connecter Scout aux outils CRM existants, systèmes de tickets ou files d'attente de modération sans travail d'intégration personnalisé. Ce n'est pas le modèle le plus créatif ou éloquent pour les textes destinés aux clients, mais pour le triage, la catégorisation et le routage, il est à la fois suffisamment rapide et précis pour que la différence de coût par rapport aux API commerciales se compose rapidement en volume.

Troisièmement, la compréhension de bases de code et les tâches de documentation interne. Pointez Scout vers un dépôt avec des centaines de fichiers dans plusieurs langages — services Python, frontends TypeScript, configs YAML, schémas SQL — et il peut répondre aux questions architecturales, générer de la documentation d'intégration, ou suggérer où implémenter une nouvelle fonctionnalité. La capacité de vision signifie qu'il peut traiter des diagrammes d'architecture ou des maquettes d'UI aux côtés du code, ce qui resserre la boucle pour les équipes qui documentent visuellement. Cela ne remplace pas le jugement d'un ingénieur senior, mais cela remplace des heures de grep et de références croisées manuelles.

Quatrièmement, tout flux de travail où la souveraineté des données ou les exigences de conformité empêchent l'envoi de données vers des API tierces. Les poids ouverts de Scout signifient que vous pouvez l'exécuter dans votre propre VPC, sur site ou dans une région cloud spécifique à une juridiction. Les services financiers, la santé et les contractants gouvernementaux font face à des réglementations croissantes qui rendent les API OpenAI ou Anthropic impossibles pour certains types de données. Scout offre un niveau de performance crédible sans verrouillage fournisseur.

La combinaison de vision et de contexte long crée certains cas d'usage émergents. Une équipe avec laquelle nous avons parlé utilise Scout pour traiter les réclamations d'assurance : photos de dommages, formulaires d'estimation numérisés, documents de police et historiques de réclamations vont tous dans un seul contexte. Scout croise les preuves visuelles avec les termes de la police et signale les divergences ou la documentation manquante. Une autre équipe l'exécute contre des dépôts de systèmes de conception, alimentant simultanément des captures d'écran Figma et du code de composants, puis générant des rapports de cohérence pour les designers et ingénieurs. Ce ne sont pas des flux de travail que vous architectureriez autour d'un modèle avec une fenêtre de huit mille jetons et sans vision.

Où Scout ne convient pas

Scout n'est pas un modèle de raisonnement. Si votre tâche nécessite une inférence logique en plusieurs étapes, des mathématiques formelles ou une planification complexe, vous serez mieux servi par Claude Opus, GPT-4 ou l'une des variantes de la série o1. Scout gère magnifiquement le question-réponse simple et la synthèse, mais demandez-lui de résoudre un puzzle algorithmique nouveau ou de construire un argument en plusieurs étapes et vous verrez rapidement les limitations. L'architecture MoE optimise pour l'étendue de couverture à travers les langues et domaines, pas la profondeur de raisonnement dans un domaine unique.

Ce n'est pas non plus le bon choix pour les textes créatifs ou marketing. Les sorties de Scout sont claires et fonctionnelles, mais elles manquent de la gamme stylistique et de la flexibilité tonale des modèles entraînés avec plus d'accent sur les données de préférence humaine pour les tâches créatives. Si vous générez des pages de destination, des textes publicitaires ou du contenu narratif, Claude ou GPT-4 livreront des résultats sensiblement meilleurs. Scout lit plus comme un analyste compétent qu'un écrivain créatif.

La capacité de vision, bien qu'utile pour les documents et l'UI, ne s'étend pas à la génération d'images détaillées, la critique artistique ou le raisonnement visuel fin. Il décrira une image avec précision et extraira du texte de manière fiable, mais les questions nuancées sur la composition, le style ou la métaphore visuelle produisent souvent des réponses superficielles. C'est un modèle de vision-document, pas un assistant créatif multimodal.

La latence compte ici. Le contexte de dix millions de jetons est puissant, mais il n'est pas gratuit — le traitement initial du prompt avec un contexte massif prend des secondes, pas des millisecondes. Si votre cas d'usage exige des temps de réponse sous-seconde pour les interactions destinées aux utilisateurs, vous devrez architecturer soigneusement autour du caching et de la structure de prompt. Scout fonctionne magnifiquement pour le traitement par lots, les tâches en arrière-plan ou les sessions interactives où quelques secondes de réflexion sont acceptables. C'est un mauvais choix pour les chatbots qui doivent sembler instantanés.

Enfin, Scout suppose que vous avez une certaine sophistication d'infrastructure. L'exécuter de manière rentable signifie comprendre l'optimisation d'inférence, le caching de prompts et le dimensionnement par lots. Si vous êtes un développeur solo ou une petite équipe sans capacité DevOps, la charge opérationnelle pourrait l'emporter sur les économies de coûts par rapport à une API gérée. Le routage d'agrégateur via OpenRouter lisse une partie de cela, mais vous êtes toujours responsable de comprendre comment structurer les requêtes efficacement.

Comparaison aux pairs

Dans l'écosystème des poids ouverts, Scout rivalise le plus directement avec Mixtral 8x22B et Qwen2.5-110B. Mixtral offre une efficacité MoE similaire mais avec une fenêtre de contexte beaucoup plus petite et des capacités de vision plus faibles. Pour le traitement de texte pur à des longueurs de contexte modérées, Mixtral devance souvent Scout sur la vitesse et le coût, mais dès que vous avez besoin de cohérence longue contexte ou de compréhension de documents, Scout prend une avance décisive.

Qwen2.5-110B d'Alibaba égale Scout sur le compte de paramètres et la capacité multilingue mais manque du polissage de production et de la maturité de l'écosystème. La performance longue contexte de Qwen se dégrade plus notablement au-delà de quelques centaines de milliers de jetons, et l'outillage autour du déploiement et du fine-tuning est moins raffiné. Si vous opérez principalement en chinois ou autres langues asiatiques, Qwen pourrait devancer Scout. Pour les flux de travail principalement en anglais avec des exigences de support multilingue, Scout est le pari le plus sûr.

Face aux API commerciales, Scout occupe une niche distincte. Il ne peut pas égaler GPT-4 Turbo ou Claude Opus sur le raisonnement, la créativité ou l'intelligence générale. Mais pour les flux de travail spécifiques qu'il cible — traitement de documents, support multilingue, opérations de contexte massif — il livre des résultats comparables ou meilleurs à une fraction du coût. L'écart se rétrécit davantage lorsque vous intégrez les exigences de souveraineté des données qui rendent les API commerciales impossibles.

La vraie comparaison n'est pas modèle contre modèle sur les benchmarks ; c'est l'économie des flux de travail. Une équipe traitant dix millions de jetons quotidiennement avec Claude Opus fait face à des coûts qui se composent rapidement. Scout fonctionnant sur une infrastructure auto-hébergée ou via un agrégateur avec tarification volume peut réduire cette dépense d'un ordre de grandeur tout en respectant les barres de qualité pour la plupart des flux de travail de documents et de support. La question n'est pas de savoir si Scout est meilleur que Claude — c'est de savoir si Scout est suffisamment bon pour votre tâche spécifique, et si la différence de coût justifie d'accepter une qualité légèrement inférieure sur les cas limites.

Histoire des coûts et de la disponibilité

Scout se situe dans la bande de coût bas, ce qui pour un modèle de cette capacité est notable. L'architecture MoE et les poids ouverts signifient que les coûts d'hébergement peuvent être optimisés de manière agressive. Les équipes exécutant leur propre infrastructure d'inférence rapportent des coûts à peu près comparables à des modèles denses beaucoup plus petits lorsqu'ils sont correctement réglés. Via des agrégateurs comme OpenRouter, la tarification se situe bien en dessous des taux d'API commerciales pour des volumes de jetons équivalents.

Les poids ouverts comptent au-delà du simple coût. Vous pouvez fine-tuner Scout sur des données spécifiques au domaine — langage juridique, terminologie médicale, jargon d'entreprise interne — sans négocier de contrats entreprise ou exposer les données d'entraînement à des tiers. Plusieurs équipes ont fine-tuné des variantes étroites pour des tâches spécialisées et ont vu des améliorations de qualité significatives avec des ensembles de données relativement petits. L'architecture est bien documentée, et l'écosystème Llama plus large signifie que l'outillage pour la quantisation, l'optimisation et le déploiement est mature et activement maintenu.

La disponibilité via OpenRouter et des agrégateurs similaires offre de la flexibilité sans verrouillage fournisseur. Vous ne dépendez pas de l'infrastructure ou de la disponibilité de Meta. Si un agrégateur a des problèmes de capacité ou des changements de tarification, la migration vers un autre est simple. La surface d'API standardisée signifie que votre code d'application n'a pas besoin d'être réécrit. Cette résilience compte pour les systèmes de production où l'accès au modèle est un chemin critique.

L'histoire de disponibilité à long terme est liée à l'engagement open-source plus large de Meta. Contrairement aux petits laboratoires qui pourraient déprécier des modèles au fur et à mesure que de nouvelles versions arrivent, Meta a des incitations institutionnelles à maintenir la compatibilité et le support à travers les générations Llama. Scout ne disparaîtra pas dans six mois quand Llama 5 sortira.

Notre verdict

Llama 4 Scout est un cheval de bataille de production pour les équipes qui ont dépassé les API généralistes sur le coût mais ne peuvent pas compromettre la qualité pour les flux de travail lourds en documents, multilingues ou longue contexte. Ce n'est pas le modèle le plus intelligent disponible, et il n'essaie pas de l'être. Scout optimise pour un ensemble différent de contraintes : coût opérationnel à grande échelle, souveraineté des données et groupes de capacités spécifiques que les API commerciales ne peuvent pas égaler ou facturent des tarifs premium pour livrer.

Si votre feuille de route inclut le traitement de collections de documents massives, le support d'une base d'utilisateurs mondiale à travers les langues, ou l'exécution d'inférence sur des données sensibles qui ne peuvent pas quitter votre infrastructure, Scout mérite une évaluation sérieuse. La courbe d'apprentissage est plus raide que s'inscrire à un compte OpenAI, mais l'économie unitaire et les compromis de contrôle paient des dividendes à mesure que l'utilisation s'échelonne.

Scout ne remplacera pas votre LLM principal pour toutes les tâches. Mais pour les flux de travail pour lesquels il est conçu, il livre une combinaison rare : capacité de niveau commercial à l'économie open-source, avec la flexibilité opérationnelle que les systèmes de production exigent de plus en plus.

Llama 4 Scout — illustration 2
Dernier test automatisé
9 juin 2026 · 20:03 UTC · Benchmark de vitesse
Latence P50
386 ms
Latence P95
446 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026