İçeriğe geç
Seviye A — Öncü
Çalıştığı yer:Multi-regionYapıldığı yer:United States
OpenRouter

Llama 4 Maverick

Seviye A — Öncü · 1.048576M token · 400B-MoE

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Llama 4 Maverick, OpenRouter platformu üzerinden sunulan ve 1.048.576 token (yaklaşık 1 milyon token) gibi olağanüstü geniş bir bağlam penceresine sahip bir büyük dil modelidir. Bu genişletilmiş bağlam kapasitesi, modelin uzun belgeler, karmaşık kod tabanları veya çağdaş dil modellerinin çoğunun sınırlarını aşacak uzunluktaki sohbet zincirleri boyunca tutarlılığı koruyarak işlem yapmasına olanak tanır. Model; fonksiyon çağırma (tools), görsel girdi işleme (vision), gelişmiş akıl yürütme görevleri ve çok dilli anlama ile üretim dahil olmak üzere kapsamlı bir yetenek setini destekler. Bu özelliklerin birleşimi, modeli hem karmaşık analitik yetenekler hem de çok modlu etkileşim gerektiren uygulamalar için çok yönlü bir seçenek haline getirir. Akıl yürütme işlevi, modelin karmaşık problem çözme görevlerinde performansı artırmak için genişletilmiş çıkarım tekniklerini kullandığına işaret eder. OpenRouter üzerinden erişilebilen Llama 4 model ailesinin bir parçası olan Maverick, kapsamlı bağlam tutma ve çeşitlendirilmiş işlevselliğin kritik olduğu senaryolar için optimize edilmiş, yüksek kapasiteli bir varyantı temsil eder. OpenRouter, çeşitli dil modellerine birleşik bir API üzerinden erişim sunan bir aracı sağlayıcı görevi görür. Modelin teknik özellikleri; araç entegrasyonu ve çok modlu yeteneklere erişimi korurken büyük miktarda bilginin işlenmesini gerektiren kurumsal uygulamalar, araştırma görevleri ve geliştirme iş akışları için uygun olduğunu göstermektedir.

OpenRouter aracılığıyla erişilen bu model tek bir API ile farklı uygulamalara entegre ediliyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme68 runs
146166831914713623505-2406-09ms
Bölüm 02

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Llama 4 Maverick
$0.1500 1M giriş token başına
$0.6000 1M çıkış token başına
≈ $0.0002 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.1500
1M çıkış token başına$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Bölüm 03

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)1105 / avg 692
1350179

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 04

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

1M token bağlam penceresiGeniş parametre kapasitesiAraç çağrısı (function calling)Meta açık kaynak mimarisiMetin üretimi ve özetlemeÇok turlu sohbet desteği

Zayıf yönler

Üçüncü taraf API üzerinden erişimBüyük model yüksek çıkarım maliyetiİnternet erişimi bulunmuyor
Bölüm 05

Yetenekler

toolsvisionreasoningmultilingual
Bölüm 06

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

OpenRouter birleşik API'si sayesinde hızlı prototipleme için kullanışlı bir seçenek.

Tokonomix benchmark özeti
Bölüm 07

Tokonomix kıyaslama kararları

2026-06-07

Llama 4 Maverick adds tools, vision, reasoning, and multilingual support

Llama 4 Maverick has expanded significantly from its previous release, adding four major capability categories: tool usage, vision processing, reasoning tasks, and multilingual support. These additions transform the model from a text-focused solution into a comprehensive multimodal system. The integration of vision capabilities allows the model to process and analyze images alongside text, while the new reasoning features enable more complex problem-solving tasks. Tool support enables function calling and structured interactions with external systems, and multilingual capabilities extend the model's reach beyond English-only applications. These enhancements position Llama 4 Maverick as a versatile option for developers building applications that require diverse input modalities and advanced cognitive tasks. The expansion represents a substantial architectural evolution, bringing the model in line with contemporary AI assistant requirements. Users migrating from the previous version should note the broader application scope, though the impact on baseline text generation performance remains to be measured in future benchmark windows. The additions make this release particularly relevant for teams building agents, multimodal applications, or internationally-focused products.

Quality

Latency p50

Test runs

0

Vision support added Tool calling now available Reasoning capabilities introduced Multilingual support expanded
Bölüm 08

Tam model profili

Llama 4 Maverick — illustration 1
Llama 4 Maverick: Meta'nın aşırılıklara yönelik hamlesi — büyük bağlam, uzman karışımı, açık ağırlıklar

Meta, Llama 4 Maverick'i 2024 sonlarında duyurduğunda, teknik özellikler son on sekiz aydaki mimari tartışmalardan çıkmış bir istek listesi gibiydi: uzman karışımı (mixture-of-experts) topolojisinde düzenlenmiş 400 milyar parametre, pratikte gerçekten işleyen bir milyon token'lık bağlam penceresi ve Llama 3'ü bir dağıtım standardı haline getiren tam açık ağırlık yayın modeli. Maverick üç eğilimin kesişim noktasında yer alıyor: MoE verimliliğinin, sınır sınıfı donanım maliyetleri olmadan sınır sınıfı zeka çalıştırmanıza izin vermesi; mega bağlamın tek çağrıda doküman analizini mümkün kılması; ve açık ekosistemin süregelen profesyonelleşmesi. Trafiği büyük-üçlü özel API'ler üzerinden yönlendirmeyi mi yoksa toplayıcı altyapıya mı yaslanacağını değerlendiren ekipler için Maverick belirli bir bahsi temsil ediyor: mimari şeffaflığa, düşük katmanda maliyet öngörülebilirliğine değer veriyorsunuz ve gerçekten bir milyon token'lık belleğe ihtiyaç duyan iş yükleriniz var.

Model, OpenRouter'da iki yüz başka uç noktanın yanında görünüyor, ancak tokonomix'teki yerini hak ediyor çünkü kapalı bahçelerin yapamayacağı ya da yapmak istemeyeceği bir şeyi sunuyor. OpenAI'nin genişletilmiş bağlam modelleri pahalı kalıyor ve büyük ölçekte token tüketimi konusunda opak. Anthropic'in son teklifleri çoğu kullanıcı için pratikte bir milyon token'ın çok altında kalıyor. Google'ın bağlam deneyleri Workspace entegrasyonlarıyla sıkı sıkıya bağlı kalıyor. Maverick ise size bir milyon gerçek token, düşük bantta okunabilir fiyatlandırma ve toplayıcı yönlendirmesinin artık tehdit modelinize uymadığına karar verirseniz yarın ağırlıkları çekme seçeneği veriyor.

Eğitim hikayesi ve mimari kararlar

Meta, Maverick'i Llama 3'ün alımlanmasından çıkan dersler üzerine inşa etti—geliştiriciler daha fazla bağlam, akıllı token başına daha düşük maliyet ve uzman modellere yönlendirmeye gerek kalmadan daha iyi çok dilli performans istiyordu. 400B-MoE mimarisi, yönlendiricinin verdiği seyreklik kapısı kararlarına bağlı olarak ileri geçiş başına yaklaşık 50-70 milyar parametreyi aktive ediyor. Bu, doğadaki en büyük MoE değil—Google'ın dahili deneyleri ve bazı araştırma prototipleri daha ileri gidiyor—ancak bu yetenek seviyesinde güvenilir bir üretim hikayesi olan en büyük açık ağırlıklı MoE.

Eğitim külliyatı ağırlıklı olarak çok dilli. Meta, WhatsApp meta verileri, daha iyi İngilizce olmayan temsil içeren genel web taramaları ve büyük-üçlü tarafından yetersiz hizmet verilen dillerdeki seçilmiş bilimsel külliyatlar arasındaki veri ortaklıklarını kullandı. Bunu, Hindi teknik dokümantasyonu veya Brezilya Portekizcesi yasal sözleşmeleri atınca hemen fark ediyorsunuz—Maverick, önceki Llama nesilleri gibi dağılmıyor. Karmaşık akıl yürütme zincirleri için hala İngilizce'yi tercih ediyor, ancak bozulma eğrisi daha yumuşak.

Bir milyon token'lık bağlam penceresi pazarlama buharı değil. Meta, modelin 800 bin token boyunca tutarlı dikkat sürdürdüğünü ve o eşiğin ötesinde zarif bozulma gösterdiğini gösteren ablasyon çalışmaları yayınladı. Pratikte, ona 300 sayfalık teknik bir kılavuz, tam bir günlük Slack dışa aktarımı veya altı aylık müşteri destek biletini tek bir çağrıda besleyebilir ve aynı nefeste sayfa 12 ve sayfa 287'ye atıfta bulunan özetler alabilirsiniz. Mimari, ilk birkaç bin token'ı sıcak tutarken ortanın sıkıştırılmasına izin veren döner pozisyon gömmeleri ile özel bir dikkat lavabo mekanizmasının karışımını kullanıyor. Bu önemli çünkü birçok mega bağlam kullanım senaryosu statik bir bilgi tabanı artı küçük bir sorgu içeriyor—"işte tüm dahili dokümanlarımız, şimdi bu soruyu yanıtla" gibi düşünün—ve Maverick'in tasarımı tam olarak bu erişim modelini optimize ediyor.

Maverick'in üretim iş akışlarında parladığı yerler

En net uyum, daha önce alma destekli üretim veya çok atlamalı orkestrasyon gerektiren doküman ağırlıklı analizdir. Keşif dokümanlarını inceleyen hukuk ekipleri, politika kılavuzlarını işlem kayıtlarıyla çapraz referanslayan uyumluluk analistleri, literatür incelemelerini sentezleyen araştırma ekipleri—bu iş akışları çok adımlı boru hatlarından tek LLM çağrılarına çöküyor. Bir tokonomix kullanıcısı, Maverick'i tam klinik deneme protokollerine karşı çalıştırıyor, 400 bin token düzenleyici dosyalamayı besliyor ve ona başka 200 bin token'a yayılan FDA kılavuzuyla tutarsızlıkları işaretlemesini istiyor. Model referansları halüsinasyon görmüyor çünkü referanslar bağlamda oturuyor. Vektör veritabanına ihtiyacı yok çünkü vektör veritabanı bağlam penceresi.

Çok dilli müşteri desteği başka bir doğal şerit. Latin Amerika, Hindistan ve Güneydoğu Asya'da faaliyet gösteriyorsanız, Maverick dile özgü uç noktalara yönlendirme yerine tek bir model dağıtımını sürdürmenize izin veriyor. Araç çağrısı yeteneği sağlam—GPT-4'ün fonksiyon çağrısı kadar cilalı değil, ancak sürekli yeniden deneme mantığı olmadan CRM API'nize, bilgi tabanı aramanıza ve biletleme sisteminize bağlayabilecek kadar güvenilir. Görüş bileşeni yaygın destek senaryolarını ele alıyor: ürün fotoğrafları, ekran görüntüsü hata ayıklama, fatura doğrulama. Herhangi bir OCR kıyaslamasını kazanmıyor, ancak "müşteri hasarlı bir sevkiyatın bulanık bir fotoğrafını gönderdi" için çıtayı aşıyor.

Kod ağırlıklı bağlamlar, daha küçük pencerelerden gelen ekipleri şaşırtan şekillerde mega bağlamdan yararlanıyor. Maverick'e bir monorepo'nun tamamını—sadece birkaç dosya değil, tüm bağımlılık grafiğini—besleyebilir ve ona A modülündeki bir yapılandırma değişikliğinin Z modülüne nasıl yayılacağını izlemesini isteyebilirsiniz. Bu, statik analiz araçlarının yerini almıyor, ancak grep ve AST ayrıştırıcılarının kaçırdığı anlamsal bağımlılıkları yakalıyor. Bir ekip bunu olay müdahalesi için kullanıyor: son altı saatteki uygulama günlüklerini, ilgili hizmet kod tabanlarını ve nöbetçi çalışma kitabını bağlama dökün, ardından muhtemelen neyin bozulduğunu sorun. Model, yığın izleri, dağıtım zaman damgaları ve kod yorumları arasında bir insan mühendisinin otuz dakika sekme değiştirmesini alacak şekilde noktaları bağlıyor.

Akıl yürütme-işaretli yetenek, doğru şekilde istem verirseniz Maverick'in karmaşık problemler için düşünce zinciri göstereceği anlamına geliyor. o1-preview veya Claude Opus kadar doğal olarak akıl yürütme izlerine meyilli değil, ancak adım adım dökümü ödüllendiren sistem istemlerle onu ikna edebilirsiniz. Bu, denetlenebilirliğin isteğe bağlı olmadığı iş akışları için önemli—finansal model doğrulama, tıbbi karar desteği, modelin çalışmasını görmek isteyen bir düzenleyicinin önüne çıkabilecek herhangi bir şey.

Maverick'in uymadığı yerler

Gerçek zamanlı gecikmeye duyarlı uygulamalar MoE mimarisi ve mega bağlam yüküyle mücadele ediyor. Bir milyon token'lık bağlamda ilk token gecikmesi, iyi donanımda bile birden fazla saniye aralığında oturuyor. Kullanıcıların saniyenin altında yanıt beklediği bir sohbet robotu oluşturuyorsanız, ya bağlamları küçük tutarsınız ya da başka yere bakarsınız. Model, yanıt hızı için değil, verim ve token başına maliyet için optimize edilmiş.

Büyük-üçlünün özel ince ayarlara yatırım yaptığı son derece uzmanlaşmış alanlar Maverick'ten daha iyi performans gösterecek. ICD-10 ile tıbbi kodlama, ABD içtihat hukukunda yasal alıntı kontrolü, GAAP kapsamında finansal tablo analizi—bu dikey alanlar, seçilmiş veri setleri üzerinde eğitilmiş ve uzman geri bildirim döngüleriyle ayarlanmış özel modellere sahip. Maverick'in genel çok dilli külliyatı onu bir genel uzman yapar, bu da dar uzman görevlerde doğruluğun son yüzde 10'undan yoksun olduğu anlamına gelir.

İş akışınız büyük hacimde metin üretmeyi içeriyorsa—içerik pazarlama, yaratıcı kurgu, toplu çeviri—Maverick'in MoE mimarisi, yönlendirme karmaşıklığını haklı çıkaracak kadar hız avantajı sağlamıyor. Benzer parametre sayımındaki yoğun bir model, üretim ağırlıklı iş yükleri için genellikle daha hızlı ve dağıtımı daha basit olacaktır. MoE, bir milyon token'ı okuduğunuzda ve birkaç bin yazdığınızda parlar, tam tersi değil.

Gömmeler Maverick'in güçlü yönü değil. Anlamsal arama veya kümeleme için yüksek kaliteli vektör temsillerine ihtiyacınız varsa, özel gömme modelleri gömme modunda çalışan bir genel LLM'den daha iyi performans gösterecektir. Maverick gömmeler üretebilir, ancak verimsizdir ve kalite işlem maliyetini haklı çıkarmaz.

Toplayıcı manzarasındaki en yakın emsallerle karşılaştırma

Açık ağırlıklı MoE kategorisinde Maverick, öncelikle Mixtral türevleri ve Qwen2.5-MoE serisi ile rekabet ediyor. Mixtral 8x22B, mega bağlam olmadan MoE verimliliği isteyen ekipler için bir iş atı olmaya devam ediyor—64 bin penceresi çoğu görev için yeterli ve daha küçük aktive edilmiş parametre sayısı daha hızlı çıkarım anlamına geliyor. Maverick bu hızı bağlam derinliği ve çok dilli erişim için takas ediyor. Medyan bağlamınız 100 bin token'ın altındaysa ve öncelikle İngilizce ise, Mixtral muhtemelen daha keskin araç. Düzenli olarak bağlam sınırlarına çarpıyorsanız veya İngilizce olmayan trafik sunuyorsanız, Maverick yükü haklı çıkarıyor.

Alibaba'dan Qwen2.5-MoE modelleri karşılaştırılabilir çok dilli performans ve benzer MoE verimliliği sunuyor, ancak kamuya açık en büyük sürümlerde 128 bin bağlamda üst sınıra ulaşıyorlar. Eğitim verileri Çince ve komşu dillere doğru eğilir, bu da Qwen'i Asya-Pasifik iş akışları için daha iyi bir uyum ve Maverick'i Avrupa ve Amerika'yı içeren küresel dağıtımlar için daha iyi bir uyum haline getirir.

Aynı yetenek bandındaki yoğun modellere karşı, karşılaştırma bağlam ihtiyaçlarınıza bağlıdır. 70B yoğun bir model Maverick'ten daha hızlı yanıt verecek ve daha basit şekilde dağıtılacaktır, ancak bir milyon token tutamaz. Mimariniz zaten parçalama ve alma mantığını içeriyorsa, yoğun model en az direnç yolu olabilir. Bu karmaşıklığı ortadan kaldırmaya çalışıyorsanız, Maverick'in bağlam penceresi var olma nedenidir.

Büyük-üçlüden kapalı modeller, kısa bağlam görevleri için ham kalite konusunda rekabetçi olmaya devam ediyor. Claude Sonnet ve GPT-4 Turbo genellikle daha cilalı düzyazı üretecek, belirsiz talimatları daha iyi ele alacak ve düşmanca istemlerden daha zarif şekilde kurtulacak. Ancak hiçbiri size açık ağırlık vermiyor, hiçbiri bu yetenek seviyesinde düşük katman fiyatlandırması sunmuyor ve hiçbiri uyumluluk veya veri ikamet talep ettiğinde kendi altyapınızda çıkarım çalıştırmanıza izin vermiyor. Maverick onları kalitede yenmeye çalışmıyor; farklı bir takaslar seti sunmaya çalışıyor.

Maliyet ve kullanılabilirlik dinamikleri

OpenRouter'da düşük katman fiyatlandırması Maverick'i Llama 3.1 70B ve diğer orta katman açık modellerle aynı banda koyuyor. Token başına büyük-üçlü sınır tekliflerinden anlamlı şekilde daha az ödüyorsunuz ve MoE mimarisi, karşılaştırılabilir fiyatlı yoğun bir modelden dolar başına daha fazla etkili zeka aldığınız anlamına geliyor. Yakalama her zaman kullanım—10 bin token'lık bağlamlar gönderiyorsanız, mimariyi verimli bir şekilde kullanmıyorsunuz ve daha ucuz bir yoğun model size daha iyi birim ekonomi verecektir.

Açık ağırlık yayını, bir çıkış yolunuz olduğu anlamına geliyor. Kullanımınız toplayıcı ücretlerinin bir satır öğesi haline geldiği noktaya ölçeklenirse veya kendi barındırmanız için düzenleyici baskıyla karşılaşırsanız, ağırlıkları çekebilir ve Maverick'i kendi kümelerinizde çalıştırabilirsiniz. Bu önemsiz değil—MoE yapılandırmasında 400B parametre hala çok-GPU kurulumları ve dikkatli bellek yönetimi gerektirir—ancak özel modellerin asla izin vermediği şekilde mümkün. Birkaç tokonomix kullanıcısı OpenRouter'ı prototipleme ve düşük hacimli ortamları olarak görür, ardından iş akışını kanıtladıklarında kendi barındırma yapar.

OpenRouter gibi bir toplayıcı aracılığıyla kullanılabilirlik aynı zamanda toplayıcının yeniden deneme mantığını, yük devretmeyi ve oran sınırı işlemesini miras aldığınız anlamına gelir. Birden fazla sağlayıcı için API anahtarlarını yönetmiyor veya kendi yük dengeleme katmanınızı oluşturmuyorsunuz. Küçük ekipler için bu, bir haftayı altyapıya harcamak ile bir haftayı gerçek ürüne harcamak arasındaki farktır. Takas, model sürümleme ve güncelleme programları üzerinde daha az kontroldür—Meta yeni bir Maverick kontrol noktası gönderdiğinde, OpenRouter bunu sizin değil, kendi zaman çizelgelerinde kullanıma sunacaktır.

Hüküm: tüm dokümanın bağlamda olmasına ihtiyacınız olduğunda

Llama 4 Maverick belirli ama değerli bir niş işgal ediyor. Bağlam sınırlarının darboğazınız olduğu, iş yükünüzün tek dil uzmanlarının bir bakım yükü haline geldiği yeterli dili kapsadığı ve düşük katman fiyatlandırmasının problemi büyük-üçlüye atamazsınız ve gider yazamazsınız kadar önemli olduğu zaman seçtiğiniz modeldir. Açık ağırlıklar size satıcı kilitlenmesine karşı bir koruma sağlar ve MoE mimarisi size sınır komşusu maliyetler olmadan sınır komşusu zeka verir.

Ekosistemde en cilalı model değil. En hızlı değil. Claude'dan daha iyi pazarlama metni yazmayacak veya o1'den daha zor matematik problemlerini çözmeyecek. Ancak 128 bin token sınırlarına çarpan ekipseniz, sekiz dilde destek biletleri çeviriyorsanız, tüm kod tabanlarını veya doküman setlerini tek bir geçişte analiz etmeye çalışıyorsanız, Maverick tam olarak bu problem için inşa edildi. Açık ekosistemin olgunlaşmasını temsil ediyor—artık sadece özel modelleri yakalamaya çalışmıyor, kapalı bahçelerin öncelikten düşürdüğü iş yüklerine hizmet eden mimari seçimler yapıyor. Doğru iş akışı için bu, bir kıyaslama lider tablosunda birkaç puan daha fazlasından daha değerlidir.

Llama 4 Maverick — illustration 2Llama 4 Maverick — illustration 3
Son otomatik test
9 Haz 2026 · 20:03 UTC · Hız testi
P50 gecikme
181 ms
P95 gecikme
189 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026