İçeriğe geç
Seviye A — Öncü
Çalıştığı yer:Multi-regionYapıldığı yer:United States
OpenRouter

Llama 3.3 70B Instruct

Seviye A — Öncü · 131K token · 70B

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Llama 3.3 70B Instruct, Meta tarafından geliştirilen ve OpenRouter'ın API platformu üzerinden erişime sunulan büyük bir dil modelidir. Bu model, Meta'nın Llama 3 serisinin bir iterasyonunu temsil eder; 70 milyar parametreye sahiptir ve özellikle talimat takibi görevleri için tasarlanmıştır. 131.000 token'lık bir bağlam penceresini destekler; bu da modelin büyük miktarda girdi metnini işleyip yanıt üretmesine olanak tanır. Model; metin üretimi, soru yanıtlama, içerik analizi ve sohbet uygulamaları dahil olmak üzere genel amaçlı dil görevleri için tasarlanmıştır. Yetenekleri arasında araç kullanımı yoluyla işlev çağırma, çok adımlı akıl yürütme görevleri ve çok sayıda dilde çok dilli metin işleme yer alır. Modelin talimat ayarlı yapısı, onu belirli istemlere uymayı ve yapılandırılmış çıktılar üretmeyi gerektiren uygulamalar için uygun kılar. Llama 3 ailesi içinde 3.3 70B varyantı, model boyutu açısından orta bir konumda yer alarak hesaplama gereksinimleri ile performans yetenekleri arasında bir denge sunar. OpenRouter, bu modele kendi toplu yapay zekâ hizmet platformunun bir parçası olarak erişim sağlar ve geliştiricilerin Llama 3.3 70B Instruct'ı birleşik bir API arayüzü aracılığıyla uygulamalarına entegre etmesine imkân tanır. Modelin genişletilmiş bağlam penceresi ve araç kullanım yetenekleri, onu uzun belgelerin işlenmesi veya harici sistemlerle çok turlu etkileşim gerektiren uygulamalar için uygun konuma yerleştirir.

OpenRouter aracılığıyla erişilen bu model tek bir API ile farklı uygulamalara entegre ediliyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme68 runs
113256650197472992505-2406-09ms
Bölüm 02

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Llama 3.3 70B Instruct
$0.1000 1M giriş token başına
$0.3200 1M çıkış token başına
≈ $0.0001 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.1000
1M çıkış token başına$0.3200

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3200

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Bölüm 03

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)349 / avg 688
174735

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 04

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

131K token uzun bağlamGeniş parametre kapasitesiMeta açık kaynak mimarisiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarı

Zayıf yönler

Üçüncü taraf API üzerinden erişimBüyük model yüksek çıkarım maliyetiİnternet erişimi bulunmuyor
Bölüm 05

Yetenekler

toolsreasoningmultilingual
Bölüm 06

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

OpenRouter birleşik API'si sayesinde hızlı prototipleme için kullanışlı bir seçenek.

Tokonomix benchmark özeti
Bölüm 07

Tokonomix kıyaslama kararları

2026-06-07

Llama 3.3 70B Instruct adds tools, reasoning, and multilingual capabilities

Llama 3.3 70B Instruct has expanded its feature set with the introduction of tool use, reasoning capabilities, and enhanced multilingual support. These additions represent a significant evolution from the previous benchmark window, where the model established its baseline performance across core language tasks. The new tool-calling functionality enables integration with external systems and APIs, while the reasoning enhancement suggests improved performance on complex analytical tasks. Multilingual capabilities broaden the model's applicability across diverse language contexts. However, without comparative performance metrics between windows, users should conduct their own testing to validate these capabilities against their specific use cases. The model maintains its 70B parameter architecture, continuing to offer a balance between capability and computational efficiency. These additions position Llama 3.3 70B Instruct as a more versatile option for developers requiring multi-modal interaction patterns, function calling, and cross-lingual applications. Users migrating from the previous version should expect expanded functionality while core language understanding and generation capabilities remain consistent with the established baseline.

Quality

Latency p50

Test runs

0

Tool use capability added Reasoning enhancement introduced Multilingual support expanded
Bölüm 08

Tam model profili

Llama 3.3 70B Instruct — illustration 1
Llama 3.3 70B Instruct: Kapasite farkını kapatan açık alternatif

Meta, Llama 3.3 70B Instruct'ı 2024 sonunda çıkardığında, gösterişsiz ama önemli bir veri noktasıyla geldi: 70 milyar parametreli bu model, çoğu kıyaslamada 405B amiral gemisiyle eşleşti veya onu aştı, ancak hesaplama maliyetinin bir kısmında çalıştı. Toplayıcı ekosisteminde gezinen üretim ekipleri için bu verimlilik kazancı somut bir şeye dönüşüyor: büyük üçlü API'lerin şişkin görünmesini sağlayan fiyatlandırmayla sınır sınıfı akıl yürütme ve araç kullanımı sunan bir model.

Llama 3.3 70B alışılmadık bir konumda duruyor. Açık kaynak kodun kendi başına ayakta durabileceğini kanıtlayan mücadeleci bir yeni oyuncu değil; Meta'nın seyrek aktivasyon ve daha akıllı eğitimin kaba kuvvet ölçeğinden daha iyi performans gösterebileceğine dair kasıtlı bir mimari bahsi. Sonuç, geliştiricilerin GPT-4 sınıfı çıktıya ihtiyaç duyduklarında ancak çıkarım yığınları üzerinde sahiplik, İngilizce merkezli ticari modellerin ötesinde çok dilli erişim veya yüksek hacimli iş akışlarını cezalandırmayan bir maliyet yapısı istediklerinde başvurdukları bir model. Yüzlerce alternatifle rekabet ettiği OpenRouter gibi platformlarda, Llama 3.3 70B, kapasite yoğunluğunu marka tanınırlığına tercih eden ekipler için varsayılan seçim olarak kendine alan yarattı.

Eğitim hikayesi ve mimari gerçeklik

Llama 3.3 70B, Meta'nın 405B amiral gemisini güçlendiren aynı 15 trilyon token'lık eğitim külliyatı üzerine inşa edilmiş üçüncü nesil dil modeli programından ortaya çıktı. İlginç detay, Meta'nın yaklaşık altıda bir parametre ile karşılaştırılabilir performansı nasıl elde ettiğidir. Eğitim rejimi, daha büyük kardeşten gelen bilgi damıtmasına büyük ölçüde dayanarak, akıl yürütme yollarını ve dünya bilgisini daha sıkı bir ağırlık dağılımına etkili bir şekilde sıkıştırdı. Bu, sonradan yapılan sadece kuantizasyon veya budama değil; damıtma ön eğitim sırasında gerçekleşti, yani 70B varyantı 405B'nin temsillerini sıfırdan tahmin etmeyi öğrendi.

Mimarinin kendisi standart sadece-dekoder dönüştürücüdür, ancak dikkat mekanizması, çıkarım sırasında bellek bant genişliğini azaltmak için gruplandırılmış sorgu dikkatini kullanır. Bu tasarım seçimi, bu modeli ölçekte çalıştırırken avantaj sağlar: ileri geçiş başına bellek ayak izi, egzotik çok düğümlü kurulumlar olmadan orta seviye GPU yapılandırmalarında sunabileceğiniz kadar yönetilebilir. 131 bin token'lık bağlam penceresi, Llama 3.1'i uzun belge çalışmaları için uygun hale getiren aynı yaklaşım olan genişletilmiş frekans tabanlarına sahip RoPE gömmeleri aracılığıyla işlenir.

Meta bu modeli, araç çağırma ve yapılandırılmış çıktıyı vurgulayan bir talimat ayarlama aşamasıyla eğitti. Araç kullanım yeteneği sistem komutlarıyla eklenmiş değil; modelin ne zaman harici işlevleri çağırması, sonuçlarını ayrıştırması ve bu bilgiyi yanıtına entegre etmesi gerektiğine karar vermesi gereken milyonlarca sentetik örnek içeren ince ayar verilerine pişirilmiştir. Sonuç, özellikle iş akışları bir konuşma boyunca birden fazla araç çağrısını zincirlemeyi gerektirdiğinde, işlev çağırma desenlerini birçok ticari alternatiften daha güvenilir bir şekilde işleyen bir modeldir.

Çok dilli eğitim vurgulamaya değer. 405B model düzinelerce dili kapsayan veriler üzerinde eğitilirken, 3.3 70B için damıtma süreci bu çok dilli kapasiteyi önemli bir bozulma olmadan korudu. Anglosphere dışında ürünler oluşturan ekipler için bu önemlidir: daha küçük açık modelleri rahatsız eden kalite düşüşü olmadan İspanyolca, Almanca, Fransızca ve düzinelerce başka dilde tutarlı akıl yürütme elde edersiniz. Performans tek tip değil; Batı Avrupa dilleri, daha düşük kaynaklı Asya veya Afrika dillerinden daha iyi sonuç verir, ancak temel seviye, geliştirme ortasında model değiştirmeden çok dilli özelliklerin prototipini oluşturabilecek kadar yüksektir.

Nerede hakimdir: araç yoğun ve uzun bağlamlı iş akışları

Llama 3.3 70B, kitlesini en hızlı şekilde, LLM akıl yürütmesini harici veri kaynaklarıyla harmanlayan ajan benzeri sistemler oluşturan ekipler arasında buldu. Modelin işlev çağırma güvenilirliği, daha basit modellerin öngörülemez şekilde başarısız olmasına neden olan kırılganlık olmadan veritabanı aramalarını, API isteklerini ve belge erişimlerini birbirine zincirlemenize olanak tanır. Tekrar tekrar gördüğümüz bir model: geliştiriciler prototipleme için ticari bir API ile başlıyor, kullanım sınırlarına veya maliyet tavanlarına ulaşıyor, ardından yönetilen bir sunucuda Llama 3.3 70B'ye geçiyor ve gecikme ve çıktı kalitesinin gayet iyi olduğunu keşfediyor.

Uzun belge anlama başka bir doğal uyumdur. Bu 131 bin token'lık bağlam penceresi sadece pazarlama değil; sözleşme incelemesi, teknik dokümantasyon analizi veya çok dosyalı kod tabanları gibi iş akışları için gerçekten kullanılabilir. Model, dikkatin 30 bin token işaretini geçtikten sonra gözle görülür şekilde bozulduğu önceki Llama nesillerinden daha iyi, tam pencere boyunca tutarlılığı korur. Tüm bir kod tabanını bağlama bırakabilir, mimari sorular sorabilir ve yirmi bin token geriden dosyalardan ayrıntılara atıfta bulunan yanıtlar alabilirsiniz. Bu, onu alım adımını tamamen atlayıp her şeyi bağlama yüklemek istediğiniz RAG boru hatları için uygun hale getirir.

Kod üretimi güç ve sınırlama arasında bir yerde duruyor. Llama 3.3 70B, standart programlama görevlerini yetkin bir şekilde işler: API istemcileri yazma, standart kod üretme, yabancı kodu açıklama—ve eğitim verilerinin en zengin olduğu Python ve JavaScript ile iyi performans gösterir. Ancak özel bir kod modeli değil. Sıkı algoritmik problemler veya belirsiz dil özellikleri için, açıkça kod külliyatları üzerinde eğitilmiş bir modelden daha makul görünen ancak incelikle yanlış çözümleri halüsinasyon yapma olasılığının daha yüksek olduğunu fark edeceksiniz. Tatlı nokta, netliğin mikro optimizasyonlardan daha önemli olduğu yapıştırıcı kod ve komut dosyası görevleridir.

Akıl yürütme yeteneği incelemeyi hak ediyor çünkü "akıl yürütme" o kadar sulandırılmış bir terim haline geldi. Llama 3.3 70B, OpenAI'nin o1 modellerinin yaptığı gibi, dahili müzakereye ayrılmış token'ları gördüğünüz açık düşünce zinciri yapmaz. Bunun yerine, ara adımları açığa çıkarmadan çok adımlı düşünceyi yansıtan çıktılar üretir. Birçok pratik iş akışı için—veri dönüşümü, metin sınıflandırması, kısıtlamalarla özetleme—bu örtük akıl yürütme yeterlidir. Ayrıntılı akıl yürütme iskeleleri mühendisliği yapmanıza gerek kalmadan sınır durumları ve ödünleşmeleri hesaba katan yanıtlar alırsınız.

Nerede uymuyor

Bu model mutlak sınır için bir yerine geçme değildir. İş akışınız olgusal bilginin en güncelinden bağımlıysa, sınırlara çarparsınız. Llama 3.3 70B'nin eğitim verilerinin bir bilgi kesme tarihi vardır ve Meta tam tarihi yayınlamasa da, model son birkaç aydan gelen olaylar veya teknik gelişmeler konusunda sürekli güncellenen ticari API'lerle karşılaştırıldığında belirgin şekilde daha kötü performans gösterir. Para biriminin önemli olduğu uygulamalar için—haber analizi, son bilimsel literatür, güncel ürün katalogları—taze veri enjekte etmek için bir alma katmanına veya daha yeni eğitime sahip bir modele ihtiyacınız vardır.

Nüanslı yaratıcı yazı başka bir boşluktur. Model işlevsel düzyazıyı iyi işler, ancak belirgin karakter sesleri, edebi stil öykünmesi veya yaratıcı anlatı yapısına sahip kurguya ihtiyacınız varsa, çıktının hizmet verilebilir ancak düz olduğunu bulacaksınız. Bu geleneksel anlamda bir kusur değil; talimat takibi ve olgusal doğruluk için optimize etmenin yaratıcı ifade yerine bir sonucudur. Hikaye anlatımı ürünleri veya pazarlama kopyası oluşturucuları oluşturan ekipler, stil aralığının daha geniş olduğu Claude veya GPT-4 varyantlarına genellikle ulaşır.

Gecikmeye duyarlı uygulamalar ödünleşimler sunar. 70 milyar parametrede, gruplandırılmış sorgu dikkatine sahip olsa bile, bu model token başına 8B veya 13B alternatiflerden daha yavaştır. Kullanıcıların saniyenin altında ilk token gecikmesi beklediği bir sohbet robotu oluşturuyorsanız, barındırma kurulumunuz hakkında dikkatlice düşünmeniz gerekir. Paylaşılan altyapıda bir toplayıcı aracılığıyla çalışmak, sıraya girme ve değişken yanıt sürelerine tabi olduğunuz anlamına gelir. Öngörülebilir gecikmenin önemli olduğu kullanım durumları için—müşteri destek sohbeti, gerçek zamanlı içerik denetleme—özel kapasiteye veya daha küçük bir modele ihtiyacınız olabilir.

Modelin korkulukları, Meta'nın uygun komutlarla tartışmalı veya yetişkin içeriğe izin vermeye yönelen politika duruşunu yansıtır. Bu, hukuki araştırma, sağlık veya aşırı agresif içerik filtrelerinin yanlış pozitiflere neden olduğu akademik yazı gibi alanlarda uygulama oluşturan ekipler için avantajlıdır. Ancak aynı zamanda tüketiciye yönelik ürünler oluşturuyorsanız güvenlik katmanının daha fazlasına sahip olduğunuz anlamına gelir. Model, bazı ticari API'lerin yaptığı gibi zararsız istekleri reddetmeyecek, ancak çelişkili senaryolarda sorunlu çıktı üretebilecek her sınır durumunu da yakalamayacaktır.

70B ağırlık sınıfında rekabet konumlandırması

En doğrudan karşılaştırma, açık model manzarasında benzer bölgeyi işgal eden Qwen 2.5 72B'dir. Qwen, özellikle matematik ve yapılandırılmış akıl yürütme görevlerinde saf kıyaslama puanlarında öne çıkar. Ancak Llama 3.3 70B, kullanıcıya yönelik uygulamalar için lider tablosu konumunun önerdiğinden daha önemli olan bir kalite olan daha doğal, daha az yapay düzyazı üretme eğilimindedir. Aralarındaki seçim genellikle dağıtım ekosistemine bağlıdır: zaten Meta'nın araçlarıyla entegre olmuşsanız veya Llama uyumlu çerçeveler kullanıyorsanız, geçiş maliyeti Qwen'in marjinal doğruluk kazançlarına değmez.

Mixtral 8x22B'ye karşı, mimari farklılıklar farklı ödünleşimler yaratır. Mixtral'in uzmanlar karışımı tasarımı, token başına yalnızca parametrelerin bir kısmı etkinleştirildiğinden, birçok komut için daha hızlı çıkarım anlamına gelir. Ancak Llama 3.3 70B'nin yoğun mimarisi, Mixtral'in yönlendirmesinin uzun bir konuşma boyunca tutarsızlıklar getirebileceği uzun bağlamlı senaryoları daha zarif bir şekilde işler. Birçok tur boyunca istikrarlı akıl yürütme gerektiren ajan iş akışları için, yoğun modelin öngörülebilirliği kazanır.

Ticari API'lerle karşılaştırma, işlerin ilginçleştiği yerdir. Llama 3.3 70B, çoğu değerlendirme paketinde GPT-4o ve Claude 3.5 Sonnet'in altında kalır, ancak boşluk fiyatlandırma farkının önerdiğinden daha dar. Üretim iş yüklerini çalıştıran ekipler için, ilgili soru hangi modelin MMLU'da daha yüksek puan aldığı değil—maliyet tasarrufunun özel kullanım durumunuz için kapasite farkını haklı çıkarıp çıkarmadığıdır. Uygulamanız net başarı kriterleriyle şablon odaklıysa, %87 ile %91 doğruluk arasındaki fark, harcamada üç kat artışı genellikle haklı çıkarmaz.

Google'ın Gemini 1.5 Pro'su daha doğrudan bir ödünleşim sunar. Gemini'nin büyük bir bağlam penceresi ve güçlü çok modlu yetenekleri vardır, Llama 3.3 70B'nin rekabet etmediği alanlar. Ancak milyonlarca yerine on binlerce token'da belgeleri işlediğiniz yalnızca metin iş akışları için, Llama daha iyi birim ekonomisinde karşılaştırılabilir çıktı sunar. Karar, iş akışınızın gerçekten bu Gemini'ye özgü özelliklere ihtiyaç duyup duymadığına veya asla kullanmayacağınız boş alan için ödeme yapıp yapmadığınıza bağlıdır.

Maliyet, kullanılabilirlik ve operasyonel gerçeklik

Llama 3.3 70B'nin düşük katman maliyet bandındaki konumu, hem mimarinin verimliliğini hem de toplayıcı pazarının rekabet dinamiklerini yansıtır. OpenRouter ve benzer platformlarda, sağlayıcılar popüler açık modeller için fiyat konusunda rekabet eder, oranları çıkarımın marjinal maliyetine doğru düşürür. Bu, ekiplerin kapalı API'lerle engelleyici olacak hacimlerde sınır sınıfı modelleri çalıştırmaları için uygun bir yol yaratır.

Model, çoğu büyük toplayıcı platformda mevcuttur ve altyapı kapasitesine sahip ekipler için kendi kendine barındırılabilir. Kendi kendine barındırma, ölçekte mantıklıdır—aylık milyonlarca isteği işliyorsanız, GPU kapasitesinin sermaye maliyeti token başına ücretlere karşı hızla amortize olur. Ancak operasyonel yük gerçektir: çalışma süresi, ölçeklendirme, model sürüm oluşturma ve bir API uç noktasına ulaştığınızda kaybolan tüm altyapı endişelerinden siz sorumlusunuz. Çoğu ekip için, toplayıcı barındırma tatlı noktayı bulur: altyapı yükü olmadan kullanıma dayalı fiyatlandırma.

Verim ve kapasite, paylaşılan altyapıda daha az öngörülebilirdir. Yoğun saatlerde, yeniden deneme mantığı ve yedek yollar uygulamanızı zorunlu kılan sıraya girme veya hız sınırlarıyla karşılaşabilirsiniz. Bu, düşük maliyetli erişimin bedelidir—diğer kiracılarla kapasite paylaşıyorsunuz ve sağlayıcılar kendi ekonomilerine göre öncelik veriyor. Üretim sistemleri için bu, model yavaş veya kullanılamadığında zarif bir şekilde bozunmak için izleme ve devre kesicilere ihtiyacınız olduğu anlamına gelir.

Lisanslama basittir: Meta, Llama 3.3'ü çoğu uygulama için kısıtlama olmaksızın ticari kullanıma izin veren izin verici bir lisans altında yayınladı. Bu, bazı açık modelleri çevreleyen, eğitim verisi kökeninin veya ağırlık lisanslamanın belirsizlik yarattığı yasal belirsizliği ortadan kaldırır. Meta'nın onayını aramadan ticari ürünler oluşturabilir, ağırlıkları ince ayarlayabilir ve dağıtabilirsiniz.

Üretim ekipleri için karar

Llama 3.3 70B, açık dil modelleri için bir olgunlaşma noktasını temsil ediyor—kapasite farkının, açık ve kapalı API'ler arasındaki kararın gerçekten nüanslı hale gelecek kadar daraldığı an. Bu model her boyutta kazanmaz. En hızlı değil, en yaratıcı değil, en güncel değil. Ancak, daha önce marjinal kullanım durumlarını ekonomik olarak uygun hale getiren bir fiyat noktasında güçlü akıl yürütme, güvenilir araç kullanımı ve çok dilli kapasitenin dengeli bir profilini sunar.

En fazla değer elde ettiğini gördüğümüz ekipler, ajan sistemleri oluşturan, uzun belgeleri işleyen veya ticari API'lerin belirgin şekilde bozulduğu İngilizce olmayan pazarlara hizmet eden ekiplerdir. Bunlar, modelin belirli güçlü yönlerinin üretim ihtiyaçlarıyla uyumlu olduğu ve maliyet tasarruflarının ölçekte hızla birleştiği iş akışlarıdır. Uygulamanız bu profile uyuyorsa, Llama 3.3 70B ciddi değerlendirmeyi hak ediyor—bir uzlaşma seçimi olarak değil, sınır ticari tekliflerden farklı kısıtlamalar için optimize eden kasıtlı bir seçim olarak.

Açık model ekosistemi hızlı hareket ediyor ve Llama 3.3 70B, 2024 sonunun yeteneklerinin bir anlık görüntüsü. Ancak altta yatan eğilim açık: performans tavanı yükselmeye devam ederken maliyet tabanı düşmeye devam ediyor. Bu model, bu eğrilerin kesişiminde oturuyor ve neyin otomasyona değer olduğunun hesabını değiştiren bir fiyatta üretime hazır kapasite sunuyor. Bu ticaret alanında gezinen ekipler için, diğer 70B modellerinin yenmesi gereken kıyaslama haline geldi.

Llama 3.3 70B Instruct — illustration 2
Son otomatik test
9 Haz 2026 · 20:03 UTC · Hız testi
P50 gecikme
573 ms
P95 gecikme
9452 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026