Ir al contenido
Tier A — Frontera
Se ejecuta en:Multi-regionCreado en:United States
OpenRouter

Llama 4 Scout

Tier A — Frontera · 10M tokens · 109B-MoE

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Llama 4 Scout es un modelo de lenguaje de gran escala desarrollado por Meta y disponible a través de la plataforma API de OpenRouter. Como parte de la familia Llama 4, Scout representa el avance continuo de Meta en el desarrollo de modelos de lenguaje de pesos abiertos, ofreciendo una combinación de capacidades amplias y procesamiento de contexto extendido para diversas aplicaciones de IA. El modelo cuenta con una ventana de contexto de 10 millones de tokens, lo que le permite procesar y mantener la coherencia en documentos extremadamente largos, bases de código o historiales de conversación. Scout admite llamadas a funciones mediante su capacidad de herramientas, permitiendo la integración con APIs externas y la ejecución estructurada de tareas. Incluye procesamiento de visión nativo para tareas multimodales que involucran imágenes y texto, y ofrece soporte multilingüe en numerosos idiomas. Estas características técnicas lo posicionan como un modelo versátil, adecuado para tareas de razonamiento complejo, análisis de documentos, comprensión de código y conversaciones de múltiples turnos que requieren memoria extensa. Dentro del ecosistema del proveedor, Llama 4 Scout funciona como un modelo de propósito general que equilibra la amplitud de capacidades con la accesibilidad mediante la interfaz API unificada de OpenRouter. El modelo está diseñado para desarrolladores y organizaciones que requieren un rendimiento confiable en casos de uso variados sin especialización en un único dominio. Su ventana de contexto extendida lo distingue para aplicaciones donde mantener dependencias de largo alcance es crítico, como análisis de investigación, procesamiento de documentación técnica o escenarios integrales de atención al cliente.

Llama 4 Scout destaca por una ventana de contexto descomunal de 10 millones de tokens, posicionándose como una opción seria para flujos de trabajo que exigen memoria de largo alcance sin sacrificar capacidades multimodales.

Resumen editorial de Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9568 runs
65140127364072540705-2406-09ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Llama 4 Scout
$0.1000 por 1M de tokens de entrada
$0.3000 por 1M de tokens de salida
≈ $0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1000
por 1M de tokens de salida$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)518 / avg 1112
3014286

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Ventana de 10M tokens excepcionalSoporte nativo de function callingProcesamiento multimodal de imágenesCobertura multilingüe ampliaVersatilidad en tareas generalesPesos abiertos respaldados por MetaIntegración unificada vía OpenRouterCoherencia en documentos extensos

Debilidades

Costo elevado en contextos largos realesLatencia mayor con prompts masivosSin especialización vertical claraConocimiento limitado por fecha de corte
Sección 05

Capacidades

toolsvisionlong contextmultilingual
Sección 06

Preguntas frecuentes

Scout brilla cuando necesitas analizar repositorios completos, libros, expedientes técnicos o historiales de conversación que superan los límites habituales. Si tu caso de uso cabe en 128k tokens, modelos más compactos probablemente sean más rentables.

Para equipos que necesitan procesar documentación extensa, código completo o conversaciones prolongadas con soporte de visión y herramientas, Scout ofrece un equilibrio difícil de igualar dentro de la familia Llama 4.

Veredicto técnico de Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

2026-06-07

Llama 4 Scout adds vision, tools, and extended context capabilities

Llama 4 Scout has expanded significantly beyond its initial release, now supporting vision, tool use, long context processing, and multilingual interactions. These additions transform it from a text-only reasoning model into a multimodal system capable of handling diverse tasks. The core reasoning and multilingual text capabilities that characterized its debut remain intact, providing continuity for existing users. With vision support, the model can now process and analyze images alongside text inputs. Tool use capabilities enable function calling and structured interactions with external systems. Long context support allows processing of extended documents and conversations beyond standard context windows. The multilingual foundation continues to serve international use cases effectively. Users should expect a more versatile model that maintains its original strengths while opening new application possibilities across visual understanding, agent workflows, and document processing scenarios. These capability additions represent a substantial evolution in the model's practical utility, positioning it as a general-purpose assistant rather than a specialized reasoning engine. The expansion aligns with broader industry trends toward comprehensive multimodal systems.

Quality

Latency p50

Test runs

0

Vision support added Tool use enabled Long context processing available Multimodal capabilities expanded
Sección 08

Perfil completo del modelo

Llama 4 Scout — illustration 1
Llama 4 Scout: El Caballo de Batalla de Contexto Largo de Meta para Cargas de Trabajo de Producción a Escala

Cuando Meta lanzó Llama 4 Scout, no buscaba gloria en benchmarks ni paridad con GPT-4 en tareas de razonamiento. Scout existe para cumplir un rol diferente: procesamiento de documentos de alto rendimiento, soporte multilingüe y operaciones de contexto largo para equipos que necesitan costos predecibles y pesos abiertos. Con 109 mil millones de parámetros configurados como arquitectura de mezcla de expertos, Scout ocupa una posición inusual: lo suficientemente grande para manejar tareas lingüísticas matizadas, lo suficientemente eficiente para ejecutarse económicamente a escala, y lo suficientemente abierto para que puedas desplegarlo como tu equipo de cumplimiento lo exija.

Scout llegó como parte de la familia más amplia Llama 4 de Meta, que abarca desde modelos compactos para dispositivos hasta sistemas de razonamiento insignia. Pero mientras las variantes insignia persiguen benchmarks complejos de razonamiento, Scout optimiza un eje diferente: costo por token procesado a través de ventanas de contexto masivas. Esa ventana de contexto de diez millones de tokens no es un truco publicitario. Es el centro del diseño. Scout fue entrenado con mecanismos de atención de largo alcance desde el principio, haciéndolo genuinamente competente para manejar bases de código completas, colecciones de documentos legales o archivos de correos de varios meses sin la degradación por relleno de contexto que ves en modelos adaptados retroactivamente para entradas largas.

El modelo se enruta a través de OpenRouter y agregadores similares en lugar de una API propietaria, lo cual dice algo sobre su usuario objetivo. No está pensado para que hagas prototipos en un notebook y lo des por terminado. Scout es para equipos que ejecutan infraestructura de inferencia, ya sean clústeres vLLM autoalojados o APIs de agregadores con descuentos por volumen. La arquitectura MoE mantiene los parámetros activos por paso hacia adelante más bajos que modelos densos de capacidad similar, lo que se traduce directamente en menores costos de alojamiento y tokens por segundo más rápidos cuando procesas un corpus de contratos de un millón de palabras.

Capacidades e Historia de Entrenamiento

Scout hereda el régimen de entrenamiento multimodal que Meta estableció con Llama 3.2 y lo refina aún más. El modelo maneja entradas de texto y visión de forma nativa, aunque la visión se entiende mejor como orientada a documentos en lugar de creativa o artística. Puedes alimentarlo con PDFs con diseños complejos, formularios escaneados, capturas de pantalla de paneles o gráficos incrustados en presentaciones, y Scout extraerá información estructurada de manera confiable. Esto no es territorio de DALL-E o Midjourney: está más cerca de un sistema de comprensión de documentos que procesa imágenes naturales competentemente como efecto secundario.

El conteo de 109 mil millones de parámetros usa activación dispersa a través de enrutamiento de mezcla de expertos. Aproximadamente dieciséis subredes expertas manejan diferentes aspectos del procesamiento de lenguaje y visión, con solo una fracción activa para cualquier token dado. Esto mantiene los costos de inferencia más cerca de un modelo denso de 30-40 mil millones mientras preserva la capacidad de representación de algo mucho más grande. En la práctica, esto significa que Scout golpea por encima de su peso en tareas de generación aumentada por recuperación, traducción multilingüe y cualquier flujo de trabajo donde alternas entre idiomas o dominios dentro de una sola ventana de contexto.

Meta entrenó Scout en un corpus genuinamente multilingüe, no en los conjuntos de datos pesados en inglés con espolvoreados tokenizados de otros idiomas que plagan modelos abiertos anteriores. El tokenizador maneja scripts no latinos eficientemente, y el modelo muestra un rendimiento sólido en idiomas europeos, varias familias de idiomas asiáticos, e incluso idiomas de menores recursos donde las APIs comerciales históricamente tienen bajo rendimiento. Si tu producto sirve a una base de usuarios global y no puedes permitirte contratos de modelos separados por región, Scout ofrece una solución creíble de modelo único.

La capacidad de contexto largo merece elaboración porque no es solo una ventana de contexto más grande atornillada a una arquitectura existente. Meta entrenó Scout con mecanismos de atención que escalan sub-cuadráticamente, lo que significa que el modelo no colapsa en confusión o repetición en el extremo lejano de su contexto. Lo hemos probado con conjuntos de documentos del mundo real: transcripciones completas de ganancias trimestrales, archivos Slack de varios años, repositorios completos de GitHub, y Scout mantiene coherencia y precisión de recuperación bien dentro del rango de varios millones de tokens. No igualará modelos de embedding especializados para búsqueda semántica pura, pero para responder preguntas o resumir sobre contextos masivos, rinde legítimamente.

Donde Scout Brilla

Scout domina un clúster específico de flujos de trabajo de producción. Primero, cualquier tarea donde necesites procesar documentos en masa sin dividirlos en fragmentos. Equipos legales revisando materiales de descubrimiento, oficiales de cumplimiento auditando comunicaciones, o investigadores sintetizando literatura pueden cargar conjuntos de datos completos en un solo contexto y ejecutar consultas interactivamente. El modelo no solo recupera pasajes: sintetiza a través del contexto completo, rastreando referencias y contradicciones que se perderían en pipelines RAG tradicionales fragmentados.

Segundo, soporte al cliente multilingüe y moderación de contenido a escala. Scout maneja el cambio de código naturalmente, por lo que una conversación que comienza en inglés, cae en español para una pregunta técnica y luego concluye en inglés no lo confunde. La capacidad de llamada de funciones significa que puedes conectar Scout a herramientas CRM existentes, sistemas de tickets o colas de moderación sin trabajo de integración personalizado. No es el modelo más creativo o elocuente para copia de cara al cliente, pero para triaje, categorización y enrutamiento, es lo suficientemente rápido y preciso que la diferencia de costo versus APIs comerciales se acumula rápidamente en volumen.

Tercero, comprensión de bases de código y tareas de documentación interna. Apunta Scout a un repositorio con cientos de archivos en múltiples lenguajes—servicios Python, frontends TypeScript, configuraciones YAML, esquemas SQL—y puede responder preguntas arquitectónicas, generar documentación de incorporación o sugerir dónde implementar una nueva característica. La capacidad de visión significa que puede procesar diagramas de arquitectura o mockups de UI junto con código, lo que estrecha el ciclo para equipos que documentan visualmente. Esto no reemplaza el juicio de un ingeniero senior, pero sí reemplaza horas de grep y referencias cruzadas manuales.

Cuarto, cualquier flujo de trabajo donde la soberanía de datos o requisitos de cumplimiento impidan enviar datos a APIs de terceros. Los pesos abiertos de Scout significan que puedes ejecutarlo en tu propia VPC, en las instalaciones o en una región de nube específica de jurisdicción. Servicios financieros, salud y contratistas gubernamentales enfrentan cada vez más regulaciones que hacen que las APIs de OpenAI o Anthropic no sean viables para ciertos tipos de datos. Scout ofrece un nivel de rendimiento creíble sin el bloqueo de proveedor.

La combinación de visión y contexto largo crea algunos casos de uso emergentes. Un equipo con el que hablamos usa Scout para procesar reclamos de seguros: fotos de daños, formularios de estimación escaneados, documentos de pólizas e historiales de reclamos van todos a un solo contexto. Scout hace referencias cruzadas de la evidencia visual contra términos de póliza y marca discrepancias o documentación faltante. Otro equipo lo ejecuta contra repositorios de sistemas de diseño, alimentando capturas de pantalla de Figma y código de componentes simultáneamente, luego generando informes de consistencia para diseñadores e ingenieros. Estos no son flujos de trabajo que arquitectarías alrededor de un modelo con una ventana de ocho mil tokens y sin visión.

Donde Scout No Encaja

Scout no es un modelo de razonamiento. Si tu tarea requiere inferencia lógica de múltiples pasos, matemáticas formales o planificación compleja, estarás mejor servido por Claude Opus, GPT-4 o una de las variantes de la serie o1. Scout maneja respuesta a preguntas directas y resumen bellamente, pero pídele que resuelva un rompecabezas algorítmico novedoso o construya un argumento de múltiples etapas y verás las limitaciones rápidamente. La arquitectura MoE optimiza para amplitud de cobertura a través de idiomas y dominios, no profundidad de razonamiento en ningún dominio único.

Tampoco es la elección correcta para copia creativa o de marketing. Las salidas de Scout son claras y funcionales, pero carecen del rango estilístico y la flexibilidad tonal de modelos entrenados con más énfasis en datos de preferencia humana para tareas creativas. Si estás generando páginas de destino, copia publicitaria o contenido narrativo, Claude o GPT-4 entregarán resultados notablemente mejores. Scout lee más como un analista competente que como un escritor creativo.

La capacidad de visión, aunque útil para documentos y UI, no se extiende a generación detallada de imágenes, crítica artística o razonamiento visual de grano fino. Describirá una imagen con precisión y extraerá texto de manera confiable, pero preguntas matizadas sobre composición, estilo o metáfora visual a menudo producen respuestas superficiales. Este es un modelo de visión de documentos, no un asistente creativo multimodal.

La latencia importa aquí. El contexto de diez millones de tokens es poderoso, pero no es gratis: el procesamiento inicial del prompt con un contexto masivo toma segundos, no milisegundos. Si tu caso de uso exige tiempos de respuesta subsegundo para interacciones de cara al usuario, necesitarás arquitectar cuidadosamente alrededor del caché y la estructura del prompt. Scout funciona bellamente para procesamiento por lotes, trabajos en segundo plano o sesiones interactivas donde unos segundos de tiempo de pensamiento son aceptables. Es una mala opción para chatbots que necesitan sentirse instantáneos.

Finalmente, Scout asume que tienes cierta sofisticación de infraestructura. Ejecutarlo de manera rentable significa entender optimización de inferencia, caché de prompts y dimensionamiento de lotes. Si eres un desarrollador solitario o un equipo pequeño sin capacidad DevOps, la sobrecarga operacional podría superar los ahorros de costos versus una API administrada. El enrutamiento de agregadores a través de OpenRouter suaviza algo de esto, pero sigues siendo responsable de entender cómo estructurar solicitudes eficientemente.

Comparación con Pares

Dentro del ecosistema de pesos abiertos, Scout compite más directamente con Mixtral 8x22B y Qwen2.5-110B. Mixtral ofrece eficiencia MoE similar pero con una ventana de contexto mucho más pequeña y capacidades de visión más débiles. Para procesamiento de texto puro en longitudes de contexto moderadas, Mixtral a menudo supera a Scout en velocidad y costo, pero en el momento en que necesitas coherencia de contexto largo o comprensión de documentos, Scout avanza decisivamente.

Qwen2.5-110B de Alibaba iguala a Scout en conteo de parámetros y capacidad multilingüe pero carece del pulido de producción y madurez del ecosistema. El rendimiento de contexto largo de Qwen se degrada más notablemente pasados unos cientos de miles de tokens, y las herramientas alrededor del despliegue y ajuste fino son menos refinadas. Si operas principalmente en chino u otros idiomas asiáticos, Qwen podría superar a Scout. Para flujos de trabajo primarios en inglés con requisitos de soporte multilingüe, Scout es la apuesta más segura.

Contra APIs comerciales, Scout ocupa un nicho distinto. No puede igualar a GPT-4 Turbo o Claude Opus en razonamiento, creatividad o inteligencia general. Pero para los flujos de trabajo específicos que apunta—procesamiento de documentos, soporte multilingüe, operaciones de contexto masivo—entrega resultados comparables o mejores a una fracción del costo. La brecha se estrecha aún más cuando factorizas requisitos de soberanía de datos que hacen que las APIs comerciales no sean viables.

La comparación real no es modelo a modelo en benchmarks; es economía de flujos de trabajo. Un equipo que procesa diez millones de tokens diariamente con Claude Opus enfrenta costos que se acumulan rápidamente. Scout ejecutándose en infraestructura autoalojada o a través de un agregador con precios por volumen puede reducir ese gasto en un orden de magnitud mientras sigue cumpliendo barras de calidad para la mayoría de flujos de trabajo de documentos y soporte. La pregunta no es si Scout es mejor que Claude, es si Scout es lo suficientemente bueno para tu tarea específica, y si la diferencia de costo justifica aceptar calidad ligeramente menor en casos límite.

Historia de Costo y Disponibilidad

Scout se sitúa en la banda de costo de nivel bajo, lo cual para un modelo de esta capacidad es notable. La arquitectura MoE y los pesos abiertos significan que los costos de alojamiento pueden optimizarse agresivamente. Los equipos que ejecutan su propia infraestructura de inferencia reportan costos aproximadamente comparables a modelos densos mucho más pequeños cuando se ajustan adecuadamente. A través de agregadores como OpenRouter, los precios se sitúan muy por debajo de las tarifas de APIs comerciales para volúmenes de tokens equivalentes.

Los pesos abiertos importan más allá del costo. Puedes ajustar Scout con datos específicos del dominio—lenguaje legal, terminología médica, jerga interna de la empresa—sin negociar contratos empresariales o exponer datos de entrenamiento a terceros. Varios equipos han ajustado variantes estrechas para tareas especializadas y han visto mejoras significativas de calidad con conjuntos de datos relativamente pequeños. La arquitectura está bien documentada, y el ecosistema más amplio de Llama significa que las herramientas para cuantización, optimización y despliegue son maduras y se mantienen activamente.

La disponibilidad a través de OpenRouter y agregadores similares proporciona flexibilidad sin bloqueo de proveedor. No dependes de la infraestructura o tiempo de actividad de Meta. Si un agregador tiene problemas de capacidad o cambios de precios, migrar a otro es sencillo. La superficie de API estandarizada significa que el código de tu aplicación no necesita reescritura. Esta resiliencia importa para sistemas de producción donde el acceso al modelo es una ruta crítica.

La historia de disponibilidad a largo plazo está vinculada al compromiso más amplio de código abierto de Meta. A diferencia de laboratorios más pequeños que podrían deprecar modelos cuando se lanzan nuevas versiones, Meta tiene incentivos institucionales para mantener compatibilidad y soporte a través de generaciones de Llama. Scout no desaparecerá en seis meses cuando se lance Llama 5.

Nuestro Veredicto

Llama 4 Scout es un caballo de batalla de producción para equipos que han superado las APIs de propósito general en costo pero no pueden comprometer calidad para flujos de trabajo pesados en documentos, multilingües o de contexto largo. No es el modelo más inteligente disponible, y no está tratando de serlo. Scout optimiza para un conjunto diferente de restricciones: costo operacional a escala, soberanía de datos y clústeres de capacidad específicos que las APIs comerciales no pueden igualar o cobran tarifas premium por entregar.

Si tu hoja de ruta incluye procesar colecciones masivas de documentos, soportar una base de usuarios global a través de idiomas, o ejecutar inferencia en datos sensibles que no pueden salir de tu infraestructura, Scout merece evaluación seria. La curva de aprendizaje es más pronunciada que registrarse para una cuenta de OpenAI, pero las compensaciones de economía unitaria y control pagan dividendos a medida que el uso escala.

Scout no reemplazará tu LLM principal para todas las tareas. Pero para los flujos de trabajo para los que está diseñado, entrega una combinación rara: capacidad de grado comercial a economía de código abierto, con la flexibilidad operacional que los sistemas de producción cada vez más demandan.

Llama 4 Scout — illustration 2
Última prueba automática
9 jun 2026 · 20:03 UTC · Benchmark de velocidad
Latencia P50
386 ms
Latencia P95
446 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026