Model uç cihazlarda veya kendi sunucumuzda çalıştırılabilir mi?

Evet, yaklaşık 1 milyar parametrelik boyutu sayesinde mobil cihazlarda, gömülü sistemlerde ve mütevazı GPU/CPU yapılandırmalarına sahip sunucularda çalıştırılabilir. Açık model lisansı şirket içi dağıtımı kolaylaştırır.

32K bağlam penceresi pratikte ne kadar kullanışlı?

Orta uzunluktaki belgeleri, çok turlu sohbet geçmişlerini ve makul büyüklükteki kod parçalarını işlemek için yeterlidir. Ancak büyük kod tabanları veya kapsamlı doküman setleri için daha geniş bağlamlı modeller tercih edilmelidir.

İnce ayar yaparak performansı artırmak mümkün mü?

Evet, küçük parametre sayısı sayesinde LoRA veya tam ince ayar süreçleri hem hızlı hem de maliyet açısından erişilebilir. Belirli bir göreve özelleştirildiğinde genel amaçlı daha büyük modellerle rekabet edebilir.

Hangi durumlarda bu modeli seçmemeliyiz?

Yüksek doğruluk gerektiren analitik görevler, çok modlu girişler veya karmaşık ajan iş akışları için bu model yetersiz kalır. Bu tür senaryolarda daha üst kademedeki Gemma veya Gemini varyantları değerlendirilmelidir.

Seviye C — Uzman

Çalıştığı yer:USYapıldığı yer:United States

Arşivlendi

Bu model sağlayıcı tarafından kullanımdan kaldırıldı. Geçmiş veriler korunmaktadır.

24 Mayıs 2026 tarihinden beri kullanılamıyor.

Google Gemini

Gemma 3 1B

Seviye C — Uzman · 33K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

Gemma 3 1B, Google tarafından açık dil modelleri ailesi Gemma'nın bir parçası olarak geliştirilen hafif bir metin üretim modelidir. Standart doğal dil işleme görevlerinde yetkin performans sunarken kaynak kısıtlı ortamlarda verimli dağıtım için tasarlanmıştır. Model, 33.000 token'lık bir bağlam penceresini destekleyerek orta uzunlukta belgeleri ve diyalogları işleyebilmektedir. Bu model, yalnızca kod çözücü transformer mimarisi üzerine kurulmuş olup çeşitli metin verisi külliyatı üzerinde eğitilmiştir. Yaklaşık 1 milyar parametreyle Gemma 3 serisinin en küçük yapılandırmasını temsil eder ve ham kapasiteden çok çıkarım hızı ile bellek verimliliğini önceliklendirir. Model; soru yanıtlama, özetleme, yaratıcı yazım ve genel diyalog gibi standart metin üretim görevlerini karşılamakla birlikte, daha büyük varyantlara kıyasla son derece uzmanlaşmış ya da karmaşık akıl yürütme görevlerinde sınırlılıklar gösterebilir. Google'ın model yelpazesinde Gemma 3 1B, minimum hesaplama yüküyle kabul edilebilir dil anlama ihtiyacı duyan geliştirici ve araştırmacılar için giriş seviyesi bir seçenek olarak konumlanır. Kapasite açısından daha büyük Gemma 3 modellerinin altında yer alır ancak dağıtım esnekliği ve operasyonel verimlilik açısından avantaj sunar. Model, Google'ın açık model lisansı kapsamında yayımlanmıştır; bu sayede deneme, ince ayar ve hesaplama kaynaklarının sınırlı olduğu ya da azami doğruluk yerine hızlı çıkarımın önceliklendirildiği uygulamalara entegrasyon için erişilebilir hale gelmektedir.

Gemma 3 1B, sınırlı kaynaklı ortamlarda hızlı yanıt vermesi gereken ekipler için pratik bir giriş seviyesi seçenek olarak öne çıkıyor.
— Tokonomix değerlendirme notu

Bölüm 01

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikmeli çıkarımHafif bellek ayak iziUç cihazlarda çalışabilirAçık model lisansıKolay ince ayar yapılabilir32K bağlam penceresiTemel diyalog görevlerinde yeterliEsnek dağıtım seçenekleri

Zayıf yönler

Karmaşık akıl yürütmede zayıfÇok modlu yetenek yokUzmanlık alanlarında sınırlı bilgiBüyük varyantlara göre düşük doğruluk

Bölüm 02

Yetenekler

outputTokenLimit: 8192

Bölüm 03

Sık sorulan sorular

Sınıflandırma, basit özetleme, kısa diyalog ve şablon tabanlı metin üretimi gibi hafif görevler için uygundur. Çok adımlı akıl yürütme veya derin alan bilgisi gerektiren senaryolarda daha büyük modellere yönelmek gerekir.

Karmaşık akıl yürütme gerektiren senaryolar için yetersiz kalsa da, hafif dağıtım ve düşük gecikme önceliğindeyse mantıklı bir tercih. C kademesi konumlandırması beklentileri doğru şekilde belirliyor.
— Tokonomix kademe özeti

Bölüm 04

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-548/100 · 4 runs

1 correct1 partial2 wrong25% accuracy

● 2026-05-22

Gemma 3 1B talimat modeli için temel kıyaslama değerleri belirlendi

Gemma 3 1B, kompakt ve talimat ayarlı bir dil modeli olarak temel performans profilini ortaya koyuyor. Model, GPQA Diamond'da %83,8 ile güçlü muhakeme yetenekleri sergileyerek lisansüstü düzeydeki muhakeme görevlerinde sağlam bir performans gösteriyor. Matematiksel problem çözmede MATH-500'de %50,9 ile yeterlilik gösterirken, genel bilgi kapasitesi MMLU Pro'da %71,1'e ulaşıyor. Kodlama performansı LiveCodeBench'te %49,4 düzeyinde olup 1B parametreli bir model için orta düzeyde bir yetkinliği temsil ediyor. Model, talimat takibi için IFEval'de %42,7'ye ulaşıyor; bu da karmaşık talimatlara katı bağlılık konusunda iyileştirme alanı olduğunu gösteriyor. MGSM'de çok dilli performans %61,2'ye ulaşarak makul düzeyde diller arası muhakeme yeteneği ortaya koyuyor. Gemma 3 serisinin ilk nesil kompakt modeli olarak bu kıyaslamalar, modeli kaynak verimliliğinin önemli olduğu uygulamalar için yetenekli, küçük ölçekli bir seçenek olarak konumlandırıyor. Kullanıcılar; sağlam genel muhakeme ve bilgi erişimi beklemeli, kodlama ve karmaşık talimat takibi gibi özelleşmiş görevlerde ise orta düzey performansla karşılaşmalıdır. Modelin diğer metriklere kıyasla GPQA Diamond'daki gücü, özellikle bilimsel ve analitik muhakeme görevlerine yatkınlığa işaret ediyor.

Quality

—

Latency p50

—

Test runs

✓ Güçlü GPQA Diamond performansı✓ Sağlam MMLU Pro puanları✗ Orta düzeyde talimat takibi✗ Sınırlı kodlama yetenekleri

Bölüm 06

Tam model profili

Gemma 3 1B: Google'ın açık ağırlıklı ailesinin cihaz üzeri katmanı

Gemma 3 1B, Google'ın Gemma 3 talimat ayarlı ailesinin en küçük üyesidir. Yaklaşık bir milyar yoğun parametre, 32.768 tokenlik bir bağlam penceresi ve çağrı başına ücret ödemeden ticari ürünlerin içine yerleştirilebilecek kadar izin verici bir lisans. Bu, ailenin veri merkezinde değil — akıllı telefon SoC'leri, fansız gömülü kartlar, tarayıcı tabanlı WebGPU çalışma zamanları — cihazın kendisinde çalışmak üzere tasarlanmış modelidir.

Tasarım hedefiniz "internet bağlantısı gerekmez" sözlerini içeriyorsa, Gemma serisinin önce değerlendirmeniz gereken parçası budur.

1B modeli ne için tasarlandı

1B dağıtımlarında üç iş yükü biçimi tutarlı şekilde karşımıza çıkıyor.

Cihaz üzeri asistanlar. Ağ yokken de çalışması gereken ve veri merkezine gidip dönmenin gecikme tabanının zaten bir sorun olduğu sesli veya metinli etkileşimler. Uçuş modunda çalışması gereken seyahat uygulamalarını, kesintili bağlantıya sahip satış noktası sistemlerini, kapsama alanı düzensiz ortamlardaki endüstriyel tabletleri düşünün.

Verilerin cihazdan çıkmaması gereken gizlilik açısından hassas iş akışları. Düzenlemeye tabi verileri olan sağlık uygulamaları, hukuka yakın uygulamalar, bulut tabanlı çıkarımın denetim hikâyesini yazmanın çok pahalı olduğu finansal yazılımlar. 1B modeli, bu iş yüklerini tamamen yerel olarak çalıştırmanıza yetecek kadar yetkin bir metin yüzeyi sağlar.

Bulut modeline gidip dönüşün darboğaz olduğu gecikmeye duyarlı etkileşimler. IDE eklentilerindeki gerçek zamanlı metin önerileri, tahminli yazı özellikleri, anında hissettirmesi gereken bağlam içi yardımlar. 1B modeli, modern donanım üzerinde bunları tek haneli milisaniye gecikmelerle sunabilir.

1B'nin uygun olmadığı şey ise ciddi akıl yürütme gerektiren her şeydir. Çok adımlı planlama, sıfırdan kod sentezi, uzun belgeler arasında karmaşık çıkarım — hepsi bu modelin konfor alanının görünür şekilde dışındadır. Akıl yürütme tavanı gerçektir ve bir üst kademedeki Gemma 3 4B modelinden daha düşüktür.

Donanım ve çalışma zamanı hikâyesi

Küçük Gemma modellerinin etrafındaki dağıtım ekosistemi, gerçekten kullanışlı bir noktaya olgunlaştı. Model şu yollarla çalışıyor:

GGUF kuantizasyonları ile llama.cpp. CPU çıkarımı için standart cevap; tüketici dizüstü bilgisayarlarında makul performans, Apple Silicon üzerinde yüksek performans. 4-bit ve hatta daha düşük kuantizasyonlar, kuantizasyondan kaynaklanan kalite kaybının modelin genel yeteneğine kıyasla küçük olduğu 1B modeli için uygulanabilir.

MediaPipe. Google'ın platformlar arası dağıtım için kendi çerçevesi. Android ve iOS'ta üretime hazır, WebGPU üzerinden makul web desteğine sahip.

ONNX Runtime. Microsoft'un dağıtım yığınına standardize olmuş ekiplerin tercih ettiği çerçeve; CPU ve çeşitli GPU arka uçları arasında iyi performans gösteriyor.

Yeni bir Apple M-serisi yonga veya rekabetçi bir x86 CPU üzerindeki başlık rakamı, kuantize edilmemiş modelde saniyede onlarca token, 4-bit kuantizasyonda ise saniyede yüzden fazla tokendir. Akıllı telefon SoC'lerinde rakamlar düşer, ancak modelin tasarlandığı etkileşim kalıpları için kullanılabilir kalır.

Nerede yetersiz kalıyor

Akıl yürütme derinliği. 1B parametre bütçesi, modelin zincirleyebileceği şeylere katı bir tavan koyar. Gerçek çok adımlı çıkarım gerektiren her şey için Gemma ailesinde 4B veya 12B'ye çıkın ya da tamamen bir bulut modeline geçin.

Uzun bağlam dikkati. Model kartında listelenen 32.768 tokenlik penceredir. Pratik dikkat kalitesi, nominal sınırın çok öncesinde bozulur. Belgeler ne derse desin, 1B'yi kısa bağlamlı bir model olarak değerlendirin.

Bilgi genişliği. Bir milyar parametreli bir modelin gerçekleri hatırlama kapasitesi sınırlıdır. Modelin eğitim verilerinden belirli bilgileri bilmesine bağlı görevler güvenilmezdir; getirme destekli (retrieval-augmented) kalıplar daha iyi çalışır.

Çok dillilik kapsamı. Gemma ailesi, ölçeğinin önereceğinden daha fazla İngilizce ağırlıklıdır. Başlıca Avrupa dilleri kabul edilebilir çıktılar üretir. Daha az kaynağa sahip diller, çok dilli kapsama için daha fazla parametre bütçesinin bulunduğu daha büyük Gemma kardeşlerine kıyasla 1B kademesinde belirgin biçimde daha kötü sonuçlar üretir.

Rekabet ortamına karşı

2B altı cihaz üzeri alanı rekabetçidir. Gemma 3 1B; Microsoft'un Phi-3-mini'si, Apple'ın cihaz üzeri modelleri, daha küçük Llama 3.2 varyantları ve Qwen 2.5 küçük kademe modelleri ile rekabet ediyor.

Her birinin kendine has bir mizacı var. Phi-3-mini, boyutuna göre akıl yürütmede güçlü puanlar alıyor; bazen şaşırtıcı şekillerde sınıfının üstünde performans gösteriyor. Llama 3.2 varyantları, Google'ın kendisi dışında en güçlü açık kaynak ekosistem desteğine sahip. Qwen varyantları, Çince ve Doğu Asya dilleri kapsamında en güçlüsü.

Gemma 3 1B'nin ayırt edici konumu dağıtım hikâyesidir. Google'ın kendi MediaPipe yığınıyla entegrasyon, tarayıcı ortamlarına temiz biçimde inen WebGPU desteği ve ticari kullanıma dostça yaklaşan lisans koşulları bir araya geldiğinde, 1B; cihaz üzeri özellikleri tüketici ürünlerine taşıyan ekipler için en az dirençli yol oluyor. Modelin kendisi rekabetçi; çevresindeki ekosistem ise farklılaştırıcı unsur.

Dağıtım notları

Kendi kendine barındırma, dağıtım hikâyesinin tamamıdır. Gemma 3 1B, Google'ın yönetilen çıkarım yüzeylerinde, cihaz üzeri dağıtım kalıbıyla rekabet edecek bir şekilde sunulmuyor. Model ağırlıkları, Gemma lisansı altında Hugging Face'ten ve Google'ın kendi dağıtım kanallarından indirilebilir.

Kuantizasyon seçimi, küçük modellerde insanların beklediğinden daha önemlidir. 1B'nin 4-bit kuantizasyonu, yeteneğin büyük kısmını korur ve bir gigabaytın çok altında RAM ile çalışan bir model üretir; 8-bit kuantizasyon ise iki katı bellek maliyetiyle bir miktar kaliteyi geri kazandırır. Pragmatik cevap, ikisini de gerçek iş yükü üzerinde kıyaslamak ve kuantizasyon-bit-sayısı hissiyatlarına göre değil, ölçülen değerlendirme puanlarına göre seçim yapmaktır.

Mobil dağıtımlarda pil etkisi gerçek ama yönetilebilirdir. 1B kademesindeki çıkarım anlamlı miktarda güç tüketir; modeli gereksiz yere çalıştırmaktan kaçınan tasarım kalıpları — yanıtları önbelleğe almak, kullanıcı girdisini düşürmek (debounce), yalnızca istek netleştiğinde modeli çağırmak — enerji bütçesini makul tutar.

Daha geniş kendi kendine barındırma boru hattı resmi için bkz. /usecases/local.

Seçim yapma

Aşağıdakilere ihtiyaç duyduğunuzda Gemma 3 1B'ye uzanın:

Ağ üzerinden gidip dönmeden cihaz üzeri çıkarım.
Ticari dağıtım için izin verici bir lisans.
Mobil, gömülü ve tarayıcı çalışma zamanlarına olgun dağıtım yolları.
Tüketici sınıfı donanım üzerinde öngörülebilir, düşük gecikmeli metin üretimi.

Akıl yürütme kalitesi darboğaza dönüştüğünde Gemma 3 4B veya Gemma 3 12B modeline yükselin. Cihaz kısıtı artık bağlayıcı olmadığında ve iş yükü öncü yetenekten faydalandığında tamamen bir bulut modeline geçin.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Son otomatik test

24 May 2026 · 04:54 UTC · Test

P50 gecikme

—

P95 gecikme

—

Hatalar

1 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·26 Mayıs 2026