Ir al contenido
Tier A — Frontera
Se ejecuta en:Multi-regionCreado en:United States
OpenRouter

Llama 4 Maverick

Tier A — Frontera · 1.048576M tokens · 400B-MoE

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Llama 4 Maverick es un modelo de lenguaje grande ofrecido a través de la plataforma de OpenRouter, que destaca por una ventana de contexto excepcionalmente amplia de 1.048.576 tokens (aproximadamente 1 millón de tokens). Esta capacidad de contexto ampliada permite al modelo procesar y mantener coherencia en documentos extensos, bases de código complejas o hilos conversacionales prolongados que superarían los límites de la mayoría de los modelos de lenguaje actuales. El modelo admite un conjunto completo de capacidades que incluye llamada a funciones (tools), procesamiento de entrada visual (vision), tareas de razonamiento avanzado, así como comprensión y generación multilingüe. Esta combinación de características lo posiciona como una opción versátil para aplicaciones que requieren tanto capacidades analíticas sofisticadas como interacción multimodal. La funcionalidad de razonamiento sugiere que el modelo emplea técnicas de inferencia extendida para mejorar su desempeño en tareas complejas de resolución de problemas. Como parte de la familia de modelos Llama 4 accesibles a través de OpenRouter, Maverick representa una variante de alta capacidad optimizada para escenarios donde la retención extensa de contexto y la diversidad funcional son esenciales. OpenRouter actúa como proveedor intermediario, ofreciendo acceso a diversos modelos de lenguaje mediante una API unificada. Las especificaciones técnicas del modelo indican que resulta adecuado para aplicaciones empresariales, tareas de investigación y flujos de trabajo de desarrollo que exigen procesar volúmenes considerables de información, manteniendo a la vez acceso a integración de herramientas y capacidades multimodales.

Llama 4 Maverick combina una ventana de contexto de un millón de tokens con capacidades multimodales y de razonamiento, posicionándose como una opción robusta para cargas de trabajo exigentes.

Resumen editorial de Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9568 runs
146166831914713623505-2406-09ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Llama 4 Maverick
$0.1500 por 1M de tokens de entrada
$0.6000 por 1M de tokens de salida
≈ $0.0002 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1500
por 1M de tokens de salida$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1105 / avg 692
1350179

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Contexto de ~1M de tokensSoporte nativo de function callingProcesamiento de entradas visualesRazonamiento extendido para tareas complejasComprensión multilingüe sólidaAcceso unificado vía OpenRouterApto para flujos empresarialesManeja bases de código extensas

Debilidades

Latencia alta con contextos muy largosCosto acumulado en prompts masivosSin soporte de audio nativoFecha de corte de conocimiento limitada
Sección 05

Capacidades

toolsvisionreasoningmultilingual
Sección 06

Preguntas frecuentes

Permite ingerir documentación extensa, repositorios completos o historiales de conversación largos sin fragmentar. Sin embargo, conviene medir latencia y costo por token antes de saturar el contexto en cada llamada.

Una alternativa sólida de nivel A cuando se necesita procesar documentos extensos sin sacrificar herramientas ni visión, aunque conviene validar latencia según el caso de uso.

Veredicto de Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

2026-06-07

Llama 4 Maverick adds tools, vision, reasoning, and multilingual support

Llama 4 Maverick has expanded significantly from its previous release, adding four major capability categories: tool usage, vision processing, reasoning tasks, and multilingual support. These additions transform the model from a text-focused solution into a comprehensive multimodal system. The integration of vision capabilities allows the model to process and analyze images alongside text, while the new reasoning features enable more complex problem-solving tasks. Tool support enables function calling and structured interactions with external systems, and multilingual capabilities extend the model's reach beyond English-only applications. These enhancements position Llama 4 Maverick as a versatile option for developers building applications that require diverse input modalities and advanced cognitive tasks. The expansion represents a substantial architectural evolution, bringing the model in line with contemporary AI assistant requirements. Users migrating from the previous version should note the broader application scope, though the impact on baseline text generation performance remains to be measured in future benchmark windows. The additions make this release particularly relevant for teams building agents, multimodal applications, or internationally-focused products.

Quality

Latency p50

Test runs

0

Vision support added Tool calling now available Reasoning capabilities introduced Multilingual support expanded
Sección 08

Perfil completo del modelo

Llama 4 Maverick — illustration 1
Llama 4 Maverick: La apuesta de Meta por los extremos — contexto masivo, mixture-of-experts, pesos abiertos

Cuando Meta anunció Llama 4 Maverick a finales de 2024, las especificaciones parecían una lista de deseos de los debates arquitectónicos de los dieciocho meses anteriores: 400 mil millones de parámetros organizados en una topología de mixture-of-experts, una ventana de contexto de un millón de tokens que realmente funciona en la práctica, y el modelo completo de lanzamiento de pesos abiertos que hizo de Llama 3 un elemento básico de implementación. Maverick se sitúa en la intersección de tres tendencias: la eficiencia MoE que permite ejecutar inteligencia de nivel frontera sin costos de hardware de nivel frontera, el megacontexto que hace viable el análisis de documentos en una sola llamada, y la continua profesionalización del ecosistema abierto. Para equipos que evalúan si dirigir el tráfico a través de las APIs propietarias de los tres grandes o inclinarse por la infraestructura agregadora, Maverick representa una apuesta específica: valoras la transparencia arquitectónica, la previsibilidad de costos en el nivel bajo, y tienes cargas de trabajo que realmente necesitan un millón de tokens de memoria.

El modelo aparece en OpenRouter junto a otros doscientos endpoints, pero se gana su lugar en tokonomix porque entrega algo que los jardines cerrados no pueden —o no quieren. Los modelos de contexto extendido de OpenAI siguen siendo caros y opacos sobre el consumo de tokens a escala. Las últimas ofertas de Anthropic tienen un límite muy por debajo de un millón de tokens en la práctica para la mayoría de usuarios. Los experimentos de contexto de Google permanecen estrechamente acoplados a integraciones de Workspace. Maverick, por el contrario, te da un millón de tokens reales, precios legibles en la banda baja, y la opción de obtener los pesos mañana si decides que el enrutamiento agregador ya no se ajusta a tu modelo de amenazas.

Historia de entrenamiento y decisiones arquitectónicas

Meta construyó Maverick sobre las lecciones de la recepción de Llama 3: los desarrolladores querían más contexto, menor costo por token inteligente, y mejor rendimiento multilingüe sin necesidad de enrutar a modelos especializados. La arquitectura 400B-MoE activa aproximadamente 50-70 mil millones de parámetros por paso hacia adelante, dependiendo de las decisiones de puerta de dispersión que tome el enrutador. Este no es el MoE más grande en circulación —los experimentos internos de Google y ciertos prototipos de investigación van más allá— pero es el MoE de pesos abiertos más grande con una historia de producción creíble a este nivel de capacidad.

El corpus de entrenamiento se inclina fuertemente hacia lo multilingüe. Meta utilizó sus asociaciones de datos a través de metadatos de WhatsApp, rastreos de web pública con mejor representación no inglesa, y corpus científicos curados en idiomas desatendidos por los tres grandes. Notas esto inmediatamente cuando le lanzas documentación técnica en hindi o contratos legales en portugués brasileño: Maverick no se desmorona como lo hacían generaciones anteriores de Llama. Todavía prefiere el inglés para cadenas de razonamiento complejas, pero la curva de degradación es más suave.

La ventana de contexto de un millón de tokens no es vapor de marketing. Meta publicó estudios de ablación que muestran que el modelo mantiene atención coherente a través de 800k tokens con degradación elegante más allá de ese umbral. En la práctica, puedes alimentarlo con un manual técnico de 300 páginas, una exportación completa de un día de Slack, o seis meses de tickets de soporte al cliente en una sola llamada y obtener resúmenes que hacen referencia a la página 12 y la página 287 en el mismo aliento. La arquitectura usa una mezcla de embeddings de posición rotatoria y un mecanismo personalizado de sumidero de atención que mantiene calientes los primeros miles de tokens mientras permite que el medio se comprima. Esto importa porque muchos casos de uso de megacontexto involucran una base de conocimiento estática más una consulta pequeña —piensa en "aquí están todos nuestros documentos internos, ahora responde esta pregunta"— y el diseño de Maverick optimiza exactamente ese patrón de acceso.

Donde Maverick brilla en flujos de trabajo de producción

El ajuste más claro es el análisis pesado de documentos donde anteriormente necesitabas generación aumentada por recuperación u orquestación multi-salto. Equipos legales revisando documentos de descubrimiento, analistas de cumplimiento cruzando manuales de políticas contra registros de transacciones, equipos de investigación sintetizando revisiones de literatura: estos flujos de trabajo colapsan de pipelines de múltiples pasos a llamadas únicas de LLM. Un usuario de tokonomix ejecuta Maverick contra protocolos completos de ensayos clínicos, alimentando 400k tokens de presentaciones regulatorias y preguntándole que señale inconsistencias con orientación de la FDA que abarca otros 200k tokens. El modelo no alucina referencias porque las referencias están en el contexto. No necesita una base de datos vectorial porque la base de datos vectorial es la ventana de contexto.

El soporte al cliente multilingüe es otro carril natural. Si operas en América Latina, India y el Sudeste Asiático, Maverick te permite mantener una implementación de un solo modelo en lugar de enrutar a endpoints específicos de idioma. La capacidad de llamada de herramientas es sólida —no tan pulida como la llamada de funciones de GPT-4, pero lo suficientemente confiable como para que puedas conectarla a tu API de CRM, tu búsqueda de base de conocimientos y tu sistema de tickets sin lógica constante de reintentos. El componente de visión maneja escenarios comunes de soporte: fotos de productos, depuración de capturas de pantalla, verificación de facturas. No está ganando ningún benchmark de OCR, pero para "el cliente envió una foto borrosa de un envío dañado" supera el listón.

Los contextos pesados en código se benefician del megacontexto de maneras que sorprenden a equipos que vienen de ventanas más pequeñas. Puedes alimentar a Maverick con un monorepo completo —no solo algunos archivos, sino todo el gráfico de dependencias— y pedirle que rastree cómo un cambio de configuración en el módulo A se propagará al módulo Z. Esto no es un reemplazo para herramientas de análisis estático, pero captura las dependencias semánticas que grep y los analizadores AST pierden. Un equipo lo usa para respuesta a incidentes: vuelca las últimas seis horas de registros de aplicación, las bases de código de servicios relevantes y el manual de guardia en contexto, luego pregunta qué probablemente se rompió. El modelo conecta puntos a través de trazas de pila, marcas de tiempo de implementación y comentarios de código de maneras que le tomarían a un ingeniero humano treinta minutos de cambio de pestañas.

La capacidad marcada de razonamiento significa que Maverick mostrará cadena de pensamiento para problemas complejos si lo solicitas correctamente. No está tan naturalmente inclinado a trazas de razonamiento como o1-preview o Claude Opus, pero puedes convencerlo con prompts de sistema que recompensen desgloses paso a paso. Esto importa para flujos de trabajo donde la auditabilidad no es opcional: validación de modelos financieros, soporte de decisiones médicas, cualquier cosa que pueda terminar frente a un regulador que quiera ver el trabajo del modelo.

Donde Maverick no encaja

Las aplicaciones sensibles a latencia en tiempo real luchan con la arquitectura MoE y la sobrecarga de megacontexto. La latencia del primer token en un contexto de un millón de tokens se sitúa en el rango de múltiples segundos incluso en buen hardware. Si estás construyendo un chatbot donde los usuarios esperan respuestas de subsegundo, o mantienes contextos pequeños o buscas en otro lugar. El modelo está optimizado para rendimiento y costo por token, no para velocidad de respuesta.

Dominios altamente especializados donde los tres grandes han invertido en ajustes personalizados superarán a Maverick. Codificación médica con ICD-10, verificación de citas legales en jurisprudencia estadounidense, análisis de estados financieros bajo GAAP: estas verticales tienen modelos propietarios entrenados en conjuntos de datos curados y ajustados con bucles de retroalimentación de expertos. El corpus multilingüe general de Maverick lo convierte en un generalista, lo que significa que carece del último 10 por ciento de precisión en tareas expertas estrechas.

Si tu flujo de trabajo implica generar grandes volúmenes de texto —marketing de contenidos, ficción creativa, traducción masiva— la arquitectura MoE de Maverick no proporciona suficiente ventaja de velocidad para justificar la complejidad de enrutamiento. Un modelo denso de conteo de parámetros similar a menudo será más rápido y más simple de implementar para cargas de trabajo pesadas en generación. El MoE brilla cuando estás leyendo un millón de tokens y escribiendo unos pocos miles, no al revés.

Los embeddings no son la fortaleza de Maverick. Si necesitas representaciones vectoriales de alta calidad para búsqueda semántica o agrupación, los modelos de embedding dedicados superarán a un LLM generalista ejecutándose en modo embedding. Maverick puede producir embeddings, pero es ineficiente y la calidad no justifica el costo computacional.

Comparación con pares más cercanos en el panorama agregador

Dentro de la categoría de MoE de pesos abiertos, Maverick compite principalmente con derivados de Mixtral y la serie Qwen2.5-MoE. Mixtral 8x22B sigue siendo un caballo de batalla para equipos que quieren eficiencia MoE sin megacontexto: su ventana de 64k es suficiente para la mayoría de tareas, y el menor conteo de parámetros activados significa inferencia más rápida. Maverick intercambia esa velocidad por profundidad de contexto y alcance multilingüe. Si tu contexto mediano está por debajo de 100k tokens y principalmente en inglés, Mixtral es probablemente la herramienta más afilada. Si regularmente chocas contra límites de contexto o sirves tráfico no inglés, Maverick justifica la sobrecarga.

Los modelos Qwen2.5-MoE de Alibaba ofrecen rendimiento multilingüe comparable y eficiencia MoE similar, pero tienen un límite de 128k de contexto en las versiones disponibles públicamente más grandes. Los datos de entrenamiento se inclinan hacia el chino e idiomas adyacentes, haciendo de Qwen un mejor ajuste para flujos de trabajo de Asia-Pacífico y Maverick un mejor ajuste para implementaciones globales que incluyen Europa y las Américas.

Contra modelos densos en la misma banda de capacidad, la comparación depende de tus necesidades de contexto. Un modelo denso de 70B responderá más rápido y se implementará más simplemente que Maverick, pero no puede mantener un millón de tokens. Si tu arquitectura ya incluye lógica de fragmentación y recuperación, el modelo denso podría ser el camino de menor resistencia. Si estás tratando de eliminar esa complejidad, la ventana de contexto de Maverick es la razón por la que existe.

Los modelos cerrados de los tres grandes siguen siendo competitivos en calidad bruta para tareas de contexto corto. Claude Sonnet y GPT-4 Turbo generalmente producirán prosa más pulida, manejarán mejor instrucciones ambiguas, y se recuperarán más elegantemente de prompts adversariales. Pero ninguno te da pesos abiertos, ninguno ofrece precios de nivel bajo a este nivel de capacidad, y ninguno te permite ejecutar inferencia en tu propia infraestructura cuando el cumplimiento o la residencia de datos lo exigen. Maverick no está tratando de superarlos en calidad; está tratando de ofrecer un conjunto diferente de compensaciones.

Dinámicas de costo y disponibilidad

Los precios de nivel bajo en OpenRouter colocan a Maverick en la misma banda que Llama 3.1 70B y otros modelos abiertos de nivel medio. Pagas significativamente menos por token que cualquiera de las ofertas frontera de los tres grandes, y la arquitectura MoE significa que obtienes más inteligencia efectiva por dólar que un modelo denso de precio comparable. El problema siempre es la utilización: si estás enviando contextos de 10k tokens, no estás aprovechando la arquitectura eficientemente, y un modelo denso más barato te dará mejor economía unitaria.

El lanzamiento de pesos abiertos significa que tienes una ruta de salida. Si tu uso escala hasta el punto donde las tarifas agregadoras se convierten en una partida, o si enfrentas presión regulatoria para auto-hospedar, puedes obtener los pesos y ejecutar Maverick en tus propios clusters. Esto no es trivial: 400B parámetros en configuración MoE todavía requiere configuraciones multi-GPU y gestión cuidadosa de memoria, pero es posible de una manera que los modelos propietarios nunca permiten. Varios usuarios de tokonomix tratan a OpenRouter como su entorno de prototipado y bajo volumen, luego auto-hospedan una vez que prueban el flujo de trabajo.

La disponibilidad a través de un agregador como OpenRouter también significa que heredas la lógica de reintentos del agregador, conmutación por error y manejo de límites de tasa. No estás gestionando claves API para múltiples proveedores ni construyendo tu propia capa de balanceo de carga. Para equipos pequeños, esta es la diferencia entre pasar una semana en infraestructura y pasar una semana en el producto real. El intercambio es menos control sobre el versionado del modelo y los cronogramas de actualización: cuando Meta envía un nuevo checkpoint de Maverick, OpenRouter lo desplegará en su cronograma, no en el tuyo.

Veredicto: cuando necesitas el documento completo en contexto

Llama 4 Maverick ocupa un nicho específico pero valioso. Es el modelo que eliges cuando los límites de contexto han sido tu cuello de botella, cuando tu carga de trabajo abarca suficientes idiomas que los especialistas en un solo idioma se convierten en una carga de mantenimiento, y cuando los precios de nivel bajo importan lo suficiente como para que no puedas simplemente lanzar el problema a los tres grandes y cargarlo a gastos. Los pesos abiertos te dan una cobertura contra el bloqueo de proveedor, y la arquitectura MoE te da inteligencia adyacente a frontera sin costos adyacentes a frontera.

No es el modelo más pulido del ecosistema. No es el más rápido. No va a escribir mejor copia de marketing que Claude ni resolver problemas matemáticos más difíciles que o1. Pero si eres el equipo que sigue chocando contra límites de 128k tokens, si estás traduciendo tickets de soporte en ocho idiomas, si estás tratando de analizar bases de código o conjuntos de documentos completos en un solo pase, Maverick está construido exactamente para ese problema. Representa la maduración del ecosistema abierto: ya no solo alcanzando a los modelos propietarios, sino haciendo elecciones arquitectónicas que sirven a cargas de trabajo que los jardines cerrados despriorizan. Para el flujo de trabajo correcto, eso vale más que unos puntos adicionales en una tabla de clasificación de benchmarks.

Llama 4 Maverick — illustration 2Llama 4 Maverick — illustration 3
Última prueba automática
9 jun 2026 · 20:03 UTC · Benchmark de velocidad
Latencia P50
181 ms
Latencia P95
189 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026