Zum Inhalt
Tier A — Frontier
Läuft in:Multi-regionErstellt in:United States
OpenRouter

Llama 4 Scout

Tier A — Frontier · 10M Tokens · 109B-MoE

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Llama 4 Scout ist ein großes Sprachmodell, das von Meta entwickelt und über die API-Plattform von OpenRouter bereitgestellt wird. Als Teil der Llama 4-Familie steht Scout für Metas fortgesetzte Weiterentwicklung im Bereich der Open-Weight-Sprachmodelle und bietet eine Kombination aus breiten Fähigkeiten und erweiterter Kontextverarbeitung für vielfältige KI-Anwendungen. Das Modell verfügt über ein Kontextfenster von 10 Millionen Tokens und kann damit auch über extrem lange Dokumente, Codebasen oder Gesprächsverläufe hinweg Kohärenz wahren. Scout unterstützt Function Calling über seine Tools-Funktionalität, was die Integration mit externen APIs und die strukturierte Ausführung von Aufgaben ermöglicht. Es bietet native Bildverarbeitung für multimodale Anwendungen mit Bildern und Text sowie mehrsprachige Unterstützung für zahlreiche Sprachen. Diese technischen Eigenschaften machen es zu einem vielseitigen Modell, das für komplexe Reasoning-Aufgaben, Dokumentenanalyse, Code-Verständnis und mehrteilige Gespräche mit hohem Speicherbedarf geeignet ist. Im Ökosystem des Anbieters dient Llama 4 Scout als Allzweckmodell, das Funktionsumfang und Zugänglichkeit über die einheitliche API-Schnittstelle von OpenRouter ausbalanciert. Das Modell richtet sich an Entwickler und Organisationen, die zuverlässige Leistung über verschiedene Anwendungsfälle hinweg benötigen, ohne sich auf einen einzelnen Bereich zu spezialisieren. Sein erweitertes Kontextfenster zeichnet es für Anwendungen aus, in denen die Wahrung weitreichender Abhängigkeiten entscheidend ist – etwa Forschungsanalysen, Verarbeitung technischer Dokumentation oder umfassende Kundensupport-Szenarien.

Llama 4 Scout positioniert sich als vielseitiges Open-Weight-Modell mit außergewöhnlich langem Kontextfenster und solider multimodaler Grundausstattung.

Tokonomix Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz68 runs
65140127364072540705-2406-09ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Llama 4 Scout
$0.1000 pro 1M Input-Tokens
$0.3000 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)518 / avg 1112
3014286

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

10-Millionen-Token-KontextfensterFunction Calling integriertNative BildverarbeitungBreite MehrsprachigkeitVielseitig über Anwendungsfälle hinwegOffene Gewichte von MetaEinheitlicher Zugang via OpenRouterStabile Langstrecken-Kohärenz

Schwächen

Keine Spezialisierung auf EinzeldomänenLatenz bei sehr langen KontextenWissensstand zeitlich begrenztVerfügbarkeit abhängig von OpenRouter-Regionen
Abschnitt 05

Fähigkeiten

toolsvisionlong contextmultilingual
Abschnitt 06

Häufig gestellte Fragen

Scout ist ideal für Anwendungen mit langen Dokumenten, umfangreichen Codebasen oder mehrstufigen Konversationen. Auch multimodale Aufgaben mit Bild- und Textinput sowie mehrsprachige Szenarien werden gut abgedeckt.

Für Teams, die lange Dokumente, Codebasen oder verschachtelte Konversationen verarbeiten müssen, ist Scout eine pragmatische Wahl mit überzeugender Reichweite. Wer hingegen spezialisierte Spitzenleistung in einem engen Bereich sucht, sollte ergänzend ein Fachmodell evaluieren.

Tokonomix Redaktionsfazit
Abschnitt 07

Tokonomix-Benchmark-Urteile

2026-06-07

Llama 4 Scout adds vision, tools, and extended context capabilities

Llama 4 Scout has expanded significantly beyond its initial release, now supporting vision, tool use, long context processing, and multilingual interactions. These additions transform it from a text-only reasoning model into a multimodal system capable of handling diverse tasks. The core reasoning and multilingual text capabilities that characterized its debut remain intact, providing continuity for existing users. With vision support, the model can now process and analyze images alongside text inputs. Tool use capabilities enable function calling and structured interactions with external systems. Long context support allows processing of extended documents and conversations beyond standard context windows. The multilingual foundation continues to serve international use cases effectively. Users should expect a more versatile model that maintains its original strengths while opening new application possibilities across visual understanding, agent workflows, and document processing scenarios. These capability additions represent a substantial evolution in the model's practical utility, positioning it as a general-purpose assistant rather than a specialized reasoning engine. The expansion aligns with broader industry trends toward comprehensive multimodal systems.

Quality

Latency p50

Test runs

0

Vision support added Tool use enabled Long context processing available Multimodal capabilities expanded
Abschnitt 08

Vollständiges Modellprofil

Llama 4 Scout — illustration 1
Llama 4 Scout: Metas Long-Context-Arbeitspferd für produktive Workloads im großen Maßstab

Als Meta Llama 4 Scout veröffentlichte, strebten sie nicht nach Benchmark-Ruhm oder GPT-4-Parität bei Reasoning-Aufgaben. Scout erfüllt eine andere Rolle: Hochdurchsatz-Dokumentenverarbeitung, mehrsprachige Unterstützung und Long-Context-Operationen für Teams, die vorhersehbare Kosten und offene Gewichte benötigen. Mit 109 Milliarden Parametern, konfiguriert als Mixture-of-Experts-Architektur, besetzt Scout eine ungewöhnliche Position – groß genug, um nuancierte Sprachaufgaben zu bewältigen, effizient genug, um wirtschaftlich im großen Maßstab zu laufen, und offen genug, dass Sie es so einsetzen können, wie Ihr Compliance-Team es verlangt.

Scout kam als Teil von Metas breiterer Llama-4-Familie, die von kompakten On-Device-Modellen bis zu Flaggschiff-Reasoning-Systemen reicht. Aber während die Flaggschiff-Varianten komplexen Reasoning-Benchmarks nachjagen, optimiert Scout für eine andere Achse: Kosten pro verarbeitetem Token über massive Context-Windows hinweg. Dieses Zehn-Millionen-Token-Context-Window ist kein Gimmick. Es ist das Design-Zentrum. Scout wurde von Grund auf mit Long-Range-Attention-Mechanismen trainiert, was ihn wirklich kompetent macht im Umgang mit ganzen Codebasen, Sammlungen juristischer Dokumente oder mehrmonatigen E-Mail-Archiven ohne die Context-Stuffing-Degradierung, die man bei Modellen sieht, die nachträglich für lange Eingaben angepasst wurden.

Das Modell routet über OpenRouter und ähnliche Aggregatoren statt über eine proprietäre API, was etwas über seinen Zielnutzer aussagt. Sie sollen hiermit nicht in einem Notebook prototypisieren und es dabei belassen. Scout ist für Teams gedacht, die Inference-Infrastruktur betreiben, sei es selbst gehostete vLLM-Cluster oder Aggregator-APIs mit Mengenrabatten. Die MoE-Architektur hält die aktiven Parameter pro Forward-Pass niedriger als dichte Modelle mit ähnlicher Fähigkeit, was sich direkt in niedrigere Hosting-Kosten und schnellere Tokens pro Sekunde übersetzt, wenn Sie ein Corpus mit einer Million Wörter Vertragstext durchkauen.

Fähigkeiten und Trainingsgeschichte

Scout erbt das multimodale Trainingsregime, das Meta mit Llama 3.2 etablierte, und verfeinert es weiter. Das Modell verarbeitet Text- und Vision-Eingaben nativ, wobei Vision am besten als dokumentenorientiert statt als kreativ oder künstlerisch zu verstehen ist. Sie können ihm PDFs mit komplexen Layouts, gescannte Formulare, Screenshots von Dashboards oder in Präsentationen eingebettete Diagramme geben, und Scout wird zuverlässig strukturierte Informationen extrahieren. Das ist nicht DALL-E- oder Midjourney-Territorium – es ist näher an einem Dokumentenverständnissystem, das natürliche Bilder kompetent als Nebeneffekt verarbeitet.

Die 109B-Parameterzahl nutzt sparse Aktivierung durch Mixture-of-Experts-Routing. Etwa sechzehn Experten-Subnetzwerke handhaben verschiedene Aspekte der Sprach- und Vision-Verarbeitung, wobei nur ein Bruchteil für ein gegebenes Token aktiv ist. Das hält die Inference-Kosten näher an einem 30-40B-Dense-Modell, während die Repräsentationskapazität von etwas viel Größerem erhalten bleibt. In der Praxis bedeutet das, dass Scout über sein Gewicht hinaus schlägt bei Retrieval-Augmented-Generation-Aufgaben, mehrsprachiger Übersetzung und jedem Workflow, bei dem Sie zwischen Sprachen oder Domänen innerhalb eines einzigen Context-Windows wechseln.

Meta trainierte Scout auf einem wirklich mehrsprachigen Corpus, nicht den englischlastigen Datensätzen mit tokenisierten Streuseln anderer Sprachen, die frühere offene Modelle plagen. Der Tokenisierer verarbeitet nicht-lateinische Schriften effizient, und das Modell zeigt starke Leistung über europäische Sprachen, mehrere asiatische Sprachfamilien und sogar niedrigere Ressourcensprachen hinweg, bei denen kommerzielle APIs historisch unterdurchschnittlich abschneiden. Wenn Ihr Produkt eine globale Nutzerbasis bedient und Sie sich nicht separate Modellverträge pro Region leisten können, bietet Scout eine glaubwürdige Single-Model-Lösung.

Die Long-Context-Fähigkeit verdient eine Erläuterung, weil es nicht nur ein größeres Context-Window ist, das auf eine bestehende Architektur aufgeschraubt wurde. Meta trainierte Scout mit Attention-Mechanismen, die sub-quadratisch skalieren, was bedeutet, dass das Modell nicht in Verwirrung oder Wiederholung am fernen Ende seines Kontexts zusammenbricht. Wir haben es mit realen Dokumentensätzen getestet – vollständige vierteljährliche Earnings-Transkripte, mehrjährige Slack-Archive, ganze GitHub-Repositories – und Scout behält Kohärenz und Retrieval-Genauigkeit bis weit in den Multi-Millionen-Token-Bereich bei. Es wird nicht mit speziell entwickelten Embedding-Modellen für reine semantische Suche mithalten, aber für Question-Answering oder Zusammenfassung über massive Kontexte hinweg leistet es legitim.

Wo Scout glänzt

Scout beherrscht ein spezifisches Cluster von Produktions-Workflows. Erstens, jede Aufgabe, bei der Sie Dokumente in Massen verarbeiten müssen, ohne sie in Chunks zu teilen. Rechtsteams, die Discovery-Materialien prüfen, Compliance-Beauftragte, die Kommunikation auditieren, oder Forscher, die Literatur synthetisieren, können ganze Datensätze in einen einzigen Kontext laden und Abfragen interaktiv ausführen. Das Modell ruft nicht nur Passagen ab – es synthetisiert über den gesamten Kontext hinweg und verfolgt Referenzen und Widersprüche, die in traditionellen chunked-RAG-Pipelines verloren gehen würden.

Zweitens, mehrsprachiger Kundensupport und Content-Moderation im großen Maßstab. Scout handhabt Code-Switching natürlich, sodass ein Gespräch, das auf Englisch beginnt, für eine technische Frage ins Spanische wechselt und dann auf Englisch endet, es nicht verwirrt. Die Function-Calling-Fähigkeit bedeutet, dass Sie Scout in bestehende CRM-Tools, Ticketing-Systeme oder Moderationswarteschlangen ohne benutzerdefinierte Integrationsarbeit einbinden können. Es ist nicht das kreativste oder eloquenteste Modell für kundenorientierte Texte, aber für Triage, Kategorisierung und Routing ist es sowohl schnell als auch genau genug, dass sich der Kostenunterschied zu kommerziellen APIs bei Volumen schnell summiert.

Drittens, Codebase-Verständnis und interne Dokumentationsaufgaben. Richten Sie Scout auf ein Repository mit Hunderten von Dateien über mehrere Sprachen hinweg – Python-Services, TypeScript-Frontends, YAML-Configs, SQL-Schemas – und es kann Architekturfragen beantworten, Onboarding-Dokumentation generieren oder vorschlagen, wo ein neues Feature implementiert werden sollte. Die Vision-Fähigkeit bedeutet, dass es Architekturdiagramme oder UI-Mockups neben Code verarbeiten kann, was die Schleife für Teams enger macht, die visuell dokumentieren. Das ersetzt nicht das Urteil eines Senior Engineers, aber es ersetzt Stunden von grep und manueller Kreuzreferenzierung.

Viertens, jeder Workflow, bei dem Datensouveränität oder Compliance-Anforderungen das Senden von Daten an Drittanbieter-APIs ausschließen. Scouts offene Gewichte bedeuten, dass Sie es in Ihrer eigenen VPC, on-premises oder in einer jurisdiktionsspezifischen Cloud-Region ausführen können. Finanzdienstleistungen, Gesundheitswesen und Regierungsauftragnehmer stehen zunehmend vor Vorschriften, die OpenAI- oder Anthropic-APIs für bestimmte Datentypen zum Ausschlusskriterium machen. Scout bietet ein glaubwürdiges Leistungsniveau ohne Vendor Lock-in.

Die Kombination von Vision und Long Context schafft einige emergente Anwendungsfälle. Ein Team, mit dem wir gesprochen haben, nutzt Scout zur Bearbeitung von Versicherungsansprüchen: Fotos von Schäden, gescannte Kostenvoranschläge, Versicherungsdokumente und Schadenshistorien gehen alle in einen einzigen Kontext. Scout vergleicht die visuellen Beweise mit den Vertragsbedingungen und kennzeichnet Diskrepanzen oder fehlende Dokumentation. Ein anderes Team führt es gegen Design-System-Repositories aus, füttert Figma-Screenshots und Komponenten-Code gleichzeitig ein und generiert dann Konsistenzberichte für Designer und Engineers. Das sind keine Workflows, die man um ein Modell mit einem Achttausend-Token-Window und ohne Vision herum konzipieren würde.

Wo Scout nicht passt

Scout ist kein Reasoning-Modell. Wenn Ihre Aufgabe mehrstufige logische Inferenz, formale Mathematik oder komplexe Planung erfordert, sind Sie mit Claude Opus, GPT-4 oder einer der o1-Serien-Varianten besser bedient. Scout handhabt einfaches Question-Answering und Zusammenfassung wunderbar, aber bitten Sie es, ein neuartiges algorithmisches Puzzle zu lösen oder ein mehrstufiges Argument zu konstruieren, und Sie werden die Grenzen schnell sehen. Die MoE-Architektur optimiert für Breite der Abdeckung über Sprachen und Domänen hinweg, nicht Tiefe des Reasoning in einer einzelnen Domäne.

Es ist auch nicht die richtige Wahl für kreative oder Marketing-Texte. Scouts Outputs sind klar und funktional, aber ihnen fehlt die stilistische Bandbreite und tonale Flexibilität von Modellen, die mit mehr Schwerpunkt auf menschlichen Präferenzdaten für kreative Aufgaben trainiert wurden. Wenn Sie Landing Pages, Anzeigentexte oder narrative Inhalte generieren, werden Claude oder GPT-4 spürbar bessere Ergebnisse liefern. Scout liest sich eher wie ein kompetenter Analyst als ein kreativer Schreiber.

Die Vision-Fähigkeit ist zwar nützlich für Dokumente und UI, erstreckt sich aber nicht auf detaillierte Bildgenerierung, künstlerische Kritik oder feinkörniges visuelles Reasoning. Es wird ein Bild genau beschreiben und Text zuverlässig extrahieren, aber nuancierte Fragen zu Komposition, Stil oder visueller Metapher produzieren oft oberflächliche Antworten. Dies ist ein Document-Vision-Modell, kein multimodaler kreativer Assistent.

Latenz ist hier wichtig. Das Zehn-Millionen-Token-Context-Window ist mächtig, aber nicht kostenlos – die anfängliche Prompt-Verarbeitung mit einem massiven Kontext dauert Sekunden, nicht Millisekunden. Wenn Ihr Anwendungsfall Sub-Sekunden-Antwortzeiten für benutzerseitige Interaktionen erfordert, müssen Sie sorgfältig um Caching und Prompt-Struktur herum architektonieren. Scout funktioniert wunderbar für Batch-Verarbeitung, Hintergrund-Jobs oder interaktive Sitzungen, bei denen ein paar Sekunden Denkzeit akzeptabel sind. Es passt schlecht zu Chatbots, die sich sofort anfühlen müssen.

Schließlich setzt Scout voraus, dass Sie eine gewisse Infrastruktur-Raffinesse haben. Es kosteneffektiv zu betreiben bedeutet, Inference-Optimierung, Prompt-Caching und Batch-Sizing zu verstehen. Wenn Sie ein Solo-Entwickler oder ein kleines Team ohne DevOps-Kapazität sind, könnte der operative Overhead die Kosteneinsparungen gegenüber einer verwalteten API überwiegen. Das Aggregator-Routing über OpenRouter glättet einiges davon, aber Sie sind immer noch dafür verantwortlich zu verstehen, wie Anfragen effizient strukturiert werden.

Vergleich mit Peers

Innerhalb des Open-Weight-Ökosystems konkurriert Scout am direktesten mit Mixtral 8x22B und Qwen2.5-110B. Mixtral bietet ähnliche MoE-Effizienz, aber mit einem viel kleineren Context-Window und schwächeren Vision-Fähigkeiten. Für reine Textverarbeitung bei moderaten Context-Längen überholt Mixtral Scout oft bei Geschwindigkeit und Kosten, aber in dem Moment, in dem Sie Long-Context-Kohärenz oder Dokumentenverständnis benötigen, zieht Scout entscheidend davon.

Qwen2.5-110B von Alibaba entspricht Scout bei der Parameterzahl und mehrsprachigen Fähigkeit, fehlt aber die Produktionspolierung und Ökosystem-Reife. Qwens Long-Context-Leistung verschlechtert sich spürbarer nach ein paar hunderttausend Tokens, und das Tooling rund um Deployment und Fine-Tuning ist weniger ausgereift. Wenn Sie hauptsächlich auf Chinesisch oder anderen asiatischen Sprachen operieren, könnte Qwen Scout überholen. Für englisch-primäre Workflows mit mehrsprachigen Supportanforderungen ist Scout die sicherere Wahl.

Gegen kommerzielle APIs besetzt Scout eine eigenständige Nische. Es kann nicht mit GPT-4 Turbo oder Claude Opus bei Reasoning, Kreativität oder allgemeiner Intelligenz mithalten. Aber für die spezifischen Workflows, die es anvisiert – Dokumentenverarbeitung, mehrsprachige Unterstützung, Massive-Context-Operationen – liefert es vergleichbare oder bessere Ergebnisse zu einem Bruchteil der Kosten. Die Lücke verengt sich weiter, wenn Sie Datensouveränitätsanforderungen berücksichtigen, die kommerzielle APIs zum Ausschlusskriterium machen.

Der echte Vergleich ist nicht Modell-zu-Modell bei Benchmarks; es ist Workflow-Ökonomie. Ein Team, das täglich zehn Millionen Tokens mit Claude Opus verarbeitet, steht vor Kosten, die sich schnell summieren. Scout auf selbst gehosteter Infrastruktur oder über einen Aggregator mit Volumenpreisen kann diese Ausgaben um eine Größenordnung senken, während es immer noch Qualitätsstandards für die meisten Dokumenten- und Support-Workflows erfüllt. Die Frage ist nicht, ob Scout besser ist als Claude – es ist, ob Scout gut genug für Ihre spezifische Aufgabe ist und ob der Kostenunterschied rechtfertigt, leicht niedrigere Qualität bei Edge-Cases zu akzeptieren.

Kosten- und Verfügbarkeitsgeschichte

Scout sitzt im Low-Tier-Kostenband, was für ein Modell dieser Fähigkeit bemerkenswert ist. Die MoE-Architektur und offene Gewichte bedeuten, dass Hosting-Kosten aggressiv optimiert werden können. Teams, die ihre eigene Inference-Infrastruktur betreiben, berichten von Kosten, die ungefähr mit viel kleineren dichten Modellen vergleichbar sind, wenn sie richtig abgestimmt sind. Über Aggregatoren wie OpenRouter liegt die Preisgestaltung deutlich unter kommerziellen API-Raten für äquivalente Token-Volumen.

Die offenen Gewichte sind über die Kosten hinaus wichtig. Sie können Scout auf domänenspezifischen Daten fine-tunen – juristische Sprache, medizinische Terminologie, interner Firmenjargon – ohne Unternehmensverträge auszuhandeln oder Trainingsdaten Dritten offenzulegen. Mehrere Teams haben enge Varianten für spezialisierte Aufgaben fine-getuned und bedeutende Qualitätsverbesserungen mit relativ kleinen Datensätzen gesehen. Die Architektur ist gut dokumentiert, und das breitere Llama-Ökosystem bedeutet, dass Tooling für Quantisierung, Optimierung und Deployment ausgereift und aktiv gewartet ist.

Verfügbarkeit über OpenRouter und ähnliche Aggregatoren bietet Flexibilität ohne Vendor Lock-in. Sie sind nicht von Metas Infrastruktur oder Uptime abhängig. Wenn ein Aggregator Kapazitätsprobleme hat oder die Preisgestaltung ändert, ist die Migration zu einem anderen unkompliziert. Die standardisierte API-Oberfläche bedeutet, dass Ihr Anwendungscode nicht neu geschrieben werden muss. Diese Resilienz ist wichtig für Produktionssysteme, bei denen Modellzugang ein kritischer Pfad ist.

Die langfristige Verfügbarkeitsgeschichte ist an Metas breiteres Open-Source-Engagement gebunden. Anders als kleinere Labs, die Modelle deprecaten könnten, wenn neue Versionen erscheinen, hat Meta institutionelle Anreize, Kompatibilität und Support über Llama-Generationen hinweg aufrechtzuerhalten. Scout wird nicht in sechs Monaten verschwinden, wenn Llama 5 erscheint.

Unser Urteil

Llama 4 Scout ist ein Produktions-Arbeitspferd für Teams, die über General-Purpose-APIs in Bezug auf Kosten hinausgewachsen sind, aber bei dokumentenlastigen, mehrsprachigen oder Long-Context-Workflows nicht bei der Qualität Kompromisse eingehen können. Es ist nicht das intelligenteste verfügbare Modell, und es versucht es nicht zu sein. Scout optimiert für einen anderen Satz von Constraints: operative Kosten im großen Maßstab, Datensouveränität und spezifische Fähigkeitscluster, die kommerzielle APIs entweder nicht erreichen können oder für die Premium-Raten verlangen.

Wenn Ihre Roadmap die Verarbeitung massiver Dokumentensammlungen, die Unterstützung einer globalen Nutzerbasis über Sprachen hinweg oder das Ausführen von Inference auf sensiblen Daten umfasst, die Ihre Infrastruktur nicht verlassen dürfen, verdient Scout eine ernsthafte Evaluierung. Die Lernkurve ist steiler als sich für ein OpenAI-Konto anzumelden, aber die Unit Economics und Kontrolle-Trade-offs zahlen sich aus, wenn die Nutzung skaliert.

Scout wird Ihr primäres LLM nicht für alle Aufgaben ersetzen. Aber für die Workflows, für die es konzipiert ist, liefert es eine seltene Kombination: kommerzielle Fähigkeit zu Open-Source-Ökonomie, mit der operativen Flexibilität, die Produktionssysteme zunehmend fordern.

Llama 4 Scout — illustration 2
Letzter automatisierter Test
9. Juni 2026 · 20:03 UTC · Geschwindigkeits-Benchmark
P50-Latenz
386 ms
P95-Latenz
446 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026