
Gemma 3 4B, Gemma 3 instruction-tuned ailesinin orta-küçük üyesidir. Yaklaşık dört milyar yoğun parametre, 32.768 token'lık bir bağlam penceresi, görüntü girişi desteği ve ticari dağıtımı basitleştiren aynı Gemma lisansı ile geliyor. Yetenekli donanımda cihaz üzerinde dağıtımın hala gerçekçi olduğu ve modelin akıl yürütme kalitesinin sadece yeterli olmaktan ziyade gerçekten faydalı hissettirilmeye başladığı boyuttadır.
Küçük Gemma serisine bakan ekipler için, bu genellikle önce değerlendirilmesi gereken doğru seviyedir.
4B modeli ne için var
Çalışma şekli, 1B ve 4B seviyeleri arasında anlamlı şekilde değişir. Üç iş yükü kalıbı 4B'de tutarlı bir şekilde ayakta kalır.
Yetenekli cihaz üzerinde asistanlar. Gemma 3 1B'nin gecikme açısından kritik kısa etkileşimler için doğru seçim olduğu yerlerde, 4B gerçekten faydalı olması gereken cihaz üzerinde özellikler için doğru seçimdir — yanıtları taslaklamak, yerel belgeleri özetlemek, oturum boyunca bağlamı koruyan çok turlu konuşma. Akıl yürütme tavanı, kullanıcıların modelin 1B'nin beceriksizce ele alacağı promptlarda pes ettiğini hissetmeyecekleri kadar yüksektir.
Yerel kalmaya ihtiyaç duyan görüntü girişi iş akışları. Ekran görüntülerini okumak, fotoğraflardan metin çıkarmak, erişilebilirlik özellikleri için sahneleri tanımlamak — bunların hepsi 4B'de 1B'de olmayan şekillerde çalışır çünkü 1B görüntü girişine sahip değildir. Bulut gidiş-dönüşü olmadan görüntü anlama gerektiren mobil ve gömülü ürünler için, 4B giriş noktasıdır.
Mütevazı ölçekte kendi kendine barındırılan üretim çıkarımı. Tek bir GPU sunucusunda dahili araçları çalıştıran ekipler, iki yıl önce çok daha büyük bir model gerektiren kalite seviyelerinde 4B'yi sunabilir. Yönetilen bir API'nin çağrı başına maliyeti olmadan ara sıra akıl yürütmeye ihtiyaç duyan dahili sınıflandırıcılar, özetleyiciler ve araçlar için, kendi kendine barındırılan bir çalışma zamanında 4B genellikle doğru dengedir.
Nerede yetersiz kalıyor
Öncü akıl yürütme. Prompt gerçek zincirleme düşünce çalışması veya sıfırdan yeni sentez gerektirdiğinde 4B'ye başvurulacak model değildir. Gemma ailesinde 12B veya 27B'ye çıkın ya da bir bulut öncü modeline geçin.
Uzun bağlam dikkati. 32.768 token'lık pencere, model kartının listelediği şeydir. Pratik dikkat kalitesi, ilk 8k civarını geçtiğinde gözle görülür şekilde bozulur. Bu işaretin ötesindeki belge ağırlıklı iş yükleri için, daha büyük Gemma kardeşleri veya uzun bağlamlı bir bulut modeli daha uygun seçeneklerdir.
Çokdilli tutarlılık. 4B, büyük Avrupa dillerini yetkin bir şekilde ve Asya dillerini daha büyük kardeşlerinden daha değişken kaliteyle ele alır. Çokdilli kapsama birincil gereksinim olduğu iş yükleri için, taahhütte bulunmadan önce gerçek İngilizce olmayan promptlara karşı değerlendirin.
Görüntü anlama hassasiyeti. 4B'deki görüntü yeteneği kullanışlıdır ancak kusursuz değildir. Küçük etiketli yoğun grafikler, el yazısı içerik ve karmaşık çok öğeli sahneler, daha büyük modellerden gözle görülür şekilde daha kötü sonuçlar üretir. Görüntü kalitesinin merkezi özellik olduğu uygulamalar için, daha büyük Gemma seviyeleri veya özel görüntü modelleri daha iyi hedeflerdir.
Donanım hikayesi
4B dağıtım ekosistemi, 1B hikayesini yukarıya doğru genişletir.
llama.cpp aracılığıyla GGUF kuantizasyonları iyi çalışır. 4B'nin 4 bit kuantizasyonu, tüketici dizüstü bilgisayarlarında kullanılabilir hızlarda çalışır ve üç gigabaytın oldukça altında RAM'e sığar. Metal backend'li Apple Silicon'da verim gerçekten etkileyicidir. AVX-512 veya AVX2'li x86'da rakamlar daha yavaştır ancak etkileşimli iş yükleri için hala kabul edilebilir düzeydedir.
GPU çıkarımı, 4B'de konfor bölgesine girer. Sekiz gigabayt VRAM'li bir tüketici GPU'su, kuantize edilmemiş modeli bol alanla sunar. Mütevazı sunucu GPU'larında, düzinelerce eşzamanlı isteğin toplu boyutları elde edilebilir. Verim-başına-watt hikayesi, bu seviyede kendi kendine barındırmayı yönetilen çıkarımla gerçekten maliyet açısından rekabetçi kılan şeylerden biridir.
MediaPipe, ONNX Runtime ve daha geniş açık kaynaklı dağıtım ekosisteminin geri kalanı, 1B'nin yanı sıra 4B'yi de destekler. Daha küçük model için işe yarayan entegrasyon yolları burada da çalışmaya devam eder.
Sahaya karşı
4B-7B seviyesi, açık ağırlıklı ekosistemin en yoğun olduğu yerdir. Gemma 3 4B, karşılaştırılabilir ölçeklerdeki Llama 3.2 3B ve 8B varyantlarıyla, Microsoft'un Phi-3 ailesiyle, Qwen 2.5 4B ve 7B seviyeleriyle ve biraz daha büyük iş yükleri için Mistral 7B ailesiyle rekabet eder.
Her birinin kendine özgü bir karakteri vardır. Llama varyantları en derin açık kaynaklı araç desteğine ve en güçlü topluluk ince ayar ekosistemine sahiptir. Phi, akıl yürütme şeklindeki kıyaslamalarda ağırlığının üzerinde vurur. Qwen en güçlü Çince ve Doğu Asya dil kapsamına sahiptir. Mistral'ın biraz daha büyük modelleri, daha fazla donanım pahasına daha iyi temel akıl yürütme sunar.
Gemma 3 4B'nin ayırt edici konumu, bu ölçekte görüntü girişinin, Google dağıtım ekosistemi hikayesinin ve gerçekten ticari dostu olan lisansın birleşimidir. Görüntü yetenekli cihaz üzerinde veya kendi kendine barındırılan özellikler oluşturan ekipler için, 4B genellikle en az direncin yoludur.
Saha genelindeki sürekli karşılaştırma için bkz. /benchmarks/leaderboard.
Dağıtım notları
Kendi kendine barındırma, daha küçük Gemma serisinin geri kalanıyla aynı şekilde, birincil dağıtım hikayesidir. Model ağırlıkları, Gemma lisansı altında Hugging Face ve Google'ın dağıtım kanallarından edinilebilir.
Kuantizasyon seçimi anlamlıdır. 4 bit kuantizasyon, yeteneğin çoğunu korur ve bellek ayak izini dramatik bir şekilde azaltır. 8 bit kuantizasyon, iki kat bellek maliyetiyle bir miktar kaliteyi geri verir. Doğru cevap iş yüküne özgüdür; gerçek promptlarda her ikisini de kıyaslayın ve ölçülen değerlendirme puanlarına göre seçin.
Kendi kendine barındırılan bir GPU'da 4B'de toplu sunma, modern çıkarım motorlarından herhangi biri aracılığıyla basittir — vLLM, TGI veya giderek daha yetenekli llama.cpp sunucusu. Mevcut GPU kapasitesine sahip ekipler için, bir sunma filosuna Gemma 3 4B eklemek operasyonel olarak önemsizdir.
Mobil dağıtımlarda 4B'de pil etkisi, 1B'den anlamlı derecede daha yüksektir. Model hala telefonlarda dağıtılabilir ancak enerji bütçesinin daha dikkatli yönetilmesi gerekir. Modeli her tuş vuruşunda çalıştırmaktan kaçının; kullanıcı girişini net istek sınırlarına toplu olarak aktaran etkileşim kalıpları tasarlayın.
Daha geniş kendi kendine barındırılan boru hattı rehberliği için bkz. /usecases/local.
Seçme
Şunlara ihtiyacınız olduğunda Gemma 3 4B'ye başvurun:
- Kendi kendine barındırılabilir veya cihaz üzerinde bir modelde metinle birlikte görüntü girişi.
- Sadece yeterli olmaktan ziyade gerçekten faydalı olan akıl yürütme kalitesi.
- Çağrı başına bulut ücretleri olmadan ticari dostu lisanslama.
- Tüketici GPU'larına veya yetenekli mobil donanıma rahatça sığan bir model.
Akıl yürütme tavanı darboğaz haline geldiğinde Gemma 3 12B veya Gemma 3 27B'ye çıkın. Gecikme ve pil ömrü yeteneği geride bıraktığında Gemma 3 1B'ye inin.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai

