
Gemma 3n E2B, Google'ın Gemma 3 mimarisinin mobil için optimize edilmiş varyantıdır. "E2B" tanımlaması, etkin parametre sayısını ifade eder — her ileri geçişte yaklaşık iki milyar aktif parametre — modelin herhangi bir anda yalnızca ağırlıklarının bir alt kümesini RAM'e yüklemesine olanak tanıyan bir mimari seçim aracılığıyla. Tam ağırlık seti daha büyüktür; çalışma zamanı ayak izi mobil dostu şekilde tasarlanmıştır.
Gemma 3 1B veya 4B üzerine geliştirme yaptıysanız ve telefon sınıfı donanımda daha geniş yeteneğe ihtiyacınız varsa, değerlendirmeniz gereken şey 3n ailesidir.
3n mimarisinin neden var olduğu
Gemma 3 1B veya 4B gibi standart yoğun modeller, tam ağırlık setini RAM'e yükler ve her ileri geçiş için tüm parametreleri kullanır. Bu, sunucu donanımında ve yeterli kapasiteye sahip dizüstü bilgisayarlarda işe yarar; ancak RAM'in kısıtlı olduğu ve tüm cihazın diğer uygulamalarla paylaşıldığı telefonlarda o kadar iyi çalışmaz.
Gemma 3n ailesi bu sorunu seçici parametre yükleme ile çözer. Model, farklı girdilerin farklı parametre alt kümelerini aktive edecek şekilde yapılandırılmıştır ve çalışma zamanı, çıkarım sürecini aksatmadan aktif olmayan ağırlıkları RAM dışına takas edebilir. Başlıktaki etki şu şekildedir: Gemma 3 4B'den önemli ölçüde daha fazla toplam parametreye sahip bir model, 2B sınıfı modellerin talep ettiğine daha yakın bir bellek bütçesi içinde çalışabilir.
Mobil ve gömülü ürünlere dağıtım yapan geliştiriciler için, Gemma ailesinin bu kısmı, bu ürünlerin gerçekte karşılaştığı kısıt setini ele alan parçadır.
8.192 tokenlik bağlam penceresi, standart Gemma 3 ailesinden daha kısadır. Bu, mimariyle ve dağıtım hedefiyle bağlantılı bilinçli bir tercihtir. Uzun bağlamda mobil çıkarım, termal ve bellek sorunudur; pencereyi sınırlamak, dağıtım hikayesini yönetilebilir tutar.
Modelin kullanım amacı
Gemma 3n dağıtımlarında üç iş yükü modeli baskındır.
Gemma 3 1B'nin sağlayabileceğinden daha geniş yeteneğe ihtiyaç duyan cihaz üstü asistanlar. Konuşma metni üretimi, orta uzunluktaki içeriğin özetlenmesi, temel muhakeme görevleri — bunların hepsi mobil bellek bütçeleri içinde kalırken daha büyük altta yatan modelden faydalanır.
Çok modlu cihaz üstü özellikler. Gemma 3n ailesi görsel girdiyi destekler, bu da tamamen yerel olarak çalışan görüntü anlama iş akışlarını mümkün kılar. Ekran görüntüsü okuma, erişilebilirlik özellikleri için sahne açıklaması, temel OCR benzeri görevler — bunların hepsi bulut gidiş-dönüşü olmadan çalışır.
Verilerin cihazdan çıkmaması gereken gizlilik hassasiyeti olan iş yükleri. Gemma 3 1B ile aynı kullanım durumu ancak daha fazla yetenek alanıyla. Sağlık ve hukuk odaklı uygulamalar, cihaz üstü model kullanıcının sorusunu sadece sınıflandırmak yerine gerçekten onunla etkileşime geçebildiğinde fayda sağlar.
Yetersiz kaldığı alanlar
Belirli bir noktadan sonraki muhakeme derinliği. E2B, Gemma 3 1B'den daha yeteneklidir, ancak etkin parametre çerçevesinin sınırları vardır. Gerçekten zor muhakeme için, daha yüksek kapasiteli donanımda çalışan daha büyük Gemma 3 kardeş modeller doğru hedeflerdir.
Uzun bağlam. 8.192 tokenlik pencere güncel standartlara göre kısadır. Daha uzun belgeleri işlemesi gereken iş yükleri, ya parçalama stratejilerine, geri getirme artırılmış desenlere ya da tamamen farklı bir modele ihtiyaç duyar.
Öngörülebilir verim. Seçici yükleme mimarisi, çıkarım gecikmesinin standart bir yoğun modele göre farklı girdiler arasında daha fazla değiştiği anlamına gelir. Tutarlı gecikmenin önemli olduğu iş yükleri için — örneğin, gerçek zamanlı kullanıcı arayüzü etkileşimleri — değişkenlik, taahhütte bulunmadan önce kıyaslama dikkatini hak eder.
Platformlar arası tutarlılık. Cihaz üstü dağıtım hikayesi, seçici yükleme deseni için çalışma zamanı desteğine dayanır. Google'ın kendi MediaPipe'ında ve bazı açık kaynaklı çalışma zamanlarında olgun destek mevcuttur; tam mobil ve gömülü ekosistem genelindeki kapsam, standart yoğun modeller için olduğundan daha az eksiksizdir. Hedef platformlarınızda desteği erken doğrulayın.
Donanım hikayesi
3n ailesi etrafındaki dağıtım ekosistemi, standart Gemma 3 hikayesinden daha genç ve araçlar hâlâ olgunlaşmaktadır.
MediaPipe en olgun dağıtım yoludur. Google'ın kendi çerçevesi, seçici yükleme mimarisini temiz bir şekilde destekler ve modern Android cihazlarda makul performans, desteklenen çalışma zamanı yapılandırmaları aracılığıyla iOS'ta kabul edilebilir performans sunar.
3n ailesi için llama.cpp desteği mevcuttur ancak standart Gemma 3 varyantlarına göre daha az olgunlaşmıştır. GGUF nicelemesi mevcuttur ve çalışır, ancak seçici yükleme optimizasyonu her çalışma zamanı aracılığıyla tam olarak açığa çıkarılmamıştır. Özellikle llama.cpp'ye ihtiyaç duyan dağıtımlar için, mimari faydaların çevrileceğini varsaymak yerine gerçek hedef donanımda kıyaslama yapın.
ONNX Runtime desteği benzerdir. İşlevseldir, seçici yükleme faydaları belirli çalışma zamanı yapılandırmasına bağlı olarak kısmen gerçekleştirilir.
En yüksek performanslı cihaz üstü dağıtım için, resmi Gemma 3n çalışma zamanı ile Android üzerinde MediaPipe, en az direnç yoludur. Diğer dağıtım hedefleri için, biraz entegrasyon çalışması bekleyin ve dikkatlice kıyaslama yapın.
Alan içindeki konumu
Cihaz üstü 2B-etkin katmanı, Gemma 3n ailesinin konumunu belirginleştirdiği yerdir. Rekabet, karşılaştırılabilir etkin ölçeklerde Microsoft'un Phi-3 ailesini, iOS'a özel dağıtımlar için Apple'ın cihaz üstü modellerini ve daha küçük Qwen ve Llama varyantlarını içerir.
Gemma 3n'nin ayırt edici konumu, seçici yükleme mimarisinin kendisidir. 2B sınıfı yoğun bir modelin sağladığından daha fazla yeteneğe ihtiyaç duyan ancak mobil bellek bütçesine sığması gereken iş yükleri için, 3n ailesi açık ağırlık alanındaki en temiz yanıtlardan biridir.
Takas, dağıtım araç olgunluğudur. Yoğun modeller ekosistem genelinde daha geniş desteğe sahiptir; seçici yükleme deseni hâlâ konsolide oluyor. Google'ın dağıtım yığınını hedefleyebilen ekipler için, bu takas kabul edilebilirdir. Maksimum çalışma zamanı taşınabilirliğine ihtiyaç duyan ekipler için, 1B veya 4B'deki standart Gemma 3 ailesi daha güvenli tercihtir.
Daha geniş bağlam için bkz. Gemma 3 1B ve Gemma 3 4B.
Dağıtım notları
Kendi kendine barındırma ve cihaz üstü dağıtım, 3n ailesi için tek anlamlı dağıtım desenleridir. E2B üzerinde bulut yönetimli çıkarım, mimarinin satış noktasının mobil dağıtım hikayesi olduğu göz önüne alındığında mantıklı değildir.
Niceleme 3n katmanında çalışır ancak niceleme ile seçici yükleme arasındaki etkileşim standart yoğun modellerden daha karmaşıktır. Belirli niceleme-çalışma zamanı kombinasyonunu hedef donanımda kıyaslayın; Gemma 3 4B için işe yarayanın doğrudan çevrileceğini varsaymayın.
Sürekli kullanımda pil etkisi gerçek dünya kısıtıdır. Seçici yükleme mimarisi, token başına benzer boyutta yoğun bir modeli naif bir şekilde çalıştırmaktan daha enerji verimlidir, ancak bu ölçekte cihaz üstü LLM çıkarımı hâlâ anlamlı güç çekimidir. Pil bütçelerine saygı gösteren etkileşim desenlerine tasarlayın.
Daha geniş cihaz üstü pipeline rehberliği için bkz. /usecases/local.
Ne zaman seçilmeli
Gemma 3n E2B'ye şunlara ihtiyacınız olduğunda yönelin:
- Mobil donanımda Gemma 3 1B'den daha fazla yetenek.
- Görsel girişli çok modlu cihaz üstü özellikler.
- Google'ın MediaPipe tabanlı çalışma zamanı yığını aracılığıyla dağıtım.
Hedef donanım daha büyük yoğun modeli desteklediğinde ve çalışma zamanı taşınabilirliği önemli olduğunda Gemma 3 4B'ye geçin. Daha fazla yeteneğe ihtiyaç duyulduğunda ve bellek bütçesi izin verdiğinde daha büyük 3n E4B varyantına geçin.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai
