İçeriğe geç
Seviye C — Uzman
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemma 3 4B

Seviye C — Uzman · 33K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemma 3 4B, Google tarafından Gemma model ailesinin bir parçası olarak geliştirilen kompakt bir dil modelidir. Model, yalnızca kod çözücülü transformer mimarisi üzerine inşa edilmiştir ve yaklaşık 4 milyar parametre içerir; bu da onu metin üretme görevleri için hafif bir seçenek konumuna yerleştirir. 33.000 token'lık bir bağlam penceresini destekleyerek geniş girdi uzunluklarına dayalı yanıtları işleyip üretebilir. Model; sohbet temelli yapay zeka, içerik oluşturma, özetleme ve tutarlı, bağlamsal olarak ilgili metin çıktısı gerektiren diğer doğal dil işleme görevleri dahil olmak üzere standart metin üretme uygulamaları için tasarlanmıştır. Google'ın Gemini sağlayıcı ekosisteminin bir parçası olarak Gemma 3 4B, makul performans özelliklerine sahip açık ağırlıklı modeller arayan geliştiriciler ve araştırmacılar için erişilebilir bir başlangıç noktası sunar. 4B parametre sayısı, hesaplama verimliliği ile yetenek arasında bir denge kurarak modeli, kaynak kısıtlı ortamlarda veya çıkarım hızının öncelikli olduğu uygulamalarda dağıtım için uygun hale getirir. Model, belgelenmiş sınırlamalar ve amaçlanan kullanım durumlarıyla birlikte Google'ın sorumlu yapay zeka geliştirme yaklaşımını izler. Google'ın model serisi içinde Gemma 3 4B, ölçek ve yetenek açısından daha büyük varyantların altında konumlanır ve model gelişmişliği ile operasyonel yük arasında bir denge sunar. Çok modlu işleme veya işlev çağırma gibi özelleşmiş yetenekler olmadan standart metin üretme işlevi sağlar; bu da onu, daha karmaşık alternatifler yerine odaklı ve verimli bir modelin tercih edildiği basit dil görevleri için uygun kılar.

Google altyapısıyla desteklenen bu model, geniş bilgi tabanını etkin biçimde kullanıyor.

Tokonomix benchmark özeti
Bölüm 01

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

32K token bağlam desteğiAçık ağırlık modeliYerel dağıtıma uygunMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarı

Zayıf yönler

Karmaşık akıl yürütmede sınırlıİnternet erişimi bulunmuyorGörsel işleme desteği yok
Bölüm 02

Yetenekler

outputTokenLimit: 8192
Bölüm 03

Sık sorulan sorular

Model ağırlıklarını indirip kendi altyapınızda çalıştırabilirsiniz; tam kontrol ve özelleştirme imkânı sunar.

Google Gemini ekosistemiyle entegre çalışan bu model kurumsal iş akışlarını hızlandırıyor.

Tokonomix benchmark özeti
Bölüm 04

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-562/100 · 4 runs
2 correct0 partial2 wrong50% accuracy
2026-05-22

Gemma 3 4B, kompakt boyutu ve güçlü kodlama performansıyla sahneye çıkıyor

Gemma 3 4B, Google'ın yeni 4 milyar parametreli modeli olarak kıyaslama penceresine giriyor ve kaynak kısıtlı dağıtımlar için verimli bir seçenek olarak konumlanıyor. Model, programlama görevlerinde dikkat çekici güçlü yönler sergiliyor; HumanEval'de 64.8 ve MBPP'de 59.8 puan elde ederek kendi boyut sınıfında rekabetçi sonuçlar sunuyor. Matematiksel akıl yürütmede GSM8K üzerinde 52.8 ile orta düzey bir yetkinlik gösterirken, genel bilgi görevlerinde karışık sonuçlar ortaya çıkıyor: MMLU'da 66.9 puan alınırken ARC Challenge'da yalnızca 48.5 puanda kalıyor. Talimat takibi IFEval'de 76.0 ile sağlam görünüyor; bu da yapılandırılmış istemlere iyi uyum sağladığını gösteriyor. Modelin MMLU Pro'da 55.8 ve GPQA'de 42.0 olan çoklu görev performansı, çeşitli alanlarda makul bir genelleme yeteneğine işaret etse de uzmanlaşmış akademik sorular hâlâ zorlayıcı olmaya devam ediyor. 4 milyar parametreyle Gemma 3 4B, çıkarım hızının ve bellek ayak izinin ham performans kadar önemli olduğu verimlilik segmentini hedefliyor. İlk sonuçlar, bu modelin en iyi kodlama desteği ve talimat tabanlı görevlerde çalıştığını; saf bilgi erişimi ve karmaşık akıl yürütme için ise daha büyük alternatiflerin tercih edilebileceğini gösteriyor. Pratik programlama yetenekleriyle hafif bir model arayan kullanıcılar bu sürümü ilgili bulacaktır.

Quality

Latency p50

Test runs

0

Boyutuna göre güçlü kodlama puanları 76,0 ile iyi talimat takibi Sınırlı ARC Challenge performansı Uzmanlık gerektiren akademik görevlerde zorlanıyor
Bölüm 06

Tam model profili

Gemma 3 4B — illustration 1
Gemma 3 4B: Google'ın açık ağırlıklı ailesinde tatlı nokta

Gemma 3 4B, Gemma 3 instruction-tuned ailesinin orta-küçük üyesidir. Yaklaşık dört milyar yoğun parametre, 32.768 token'lık bir bağlam penceresi, görüntü girişi desteği ve ticari dağıtımı basitleştiren aynı Gemma lisansı ile geliyor. Yetenekli donanımda cihaz üzerinde dağıtımın hala gerçekçi olduğu ve modelin akıl yürütme kalitesinin sadece yeterli olmaktan ziyade gerçekten faydalı hissettirilmeye başladığı boyuttadır.

Küçük Gemma serisine bakan ekipler için, bu genellikle önce değerlendirilmesi gereken doğru seviyedir.

4B modeli ne için var

Çalışma şekli, 1B ve 4B seviyeleri arasında anlamlı şekilde değişir. Üç iş yükü kalıbı 4B'de tutarlı bir şekilde ayakta kalır.

Yetenekli cihaz üzerinde asistanlar. Gemma 3 1B'nin gecikme açısından kritik kısa etkileşimler için doğru seçim olduğu yerlerde, 4B gerçekten faydalı olması gereken cihaz üzerinde özellikler için doğru seçimdir — yanıtları taslaklamak, yerel belgeleri özetlemek, oturum boyunca bağlamı koruyan çok turlu konuşma. Akıl yürütme tavanı, kullanıcıların modelin 1B'nin beceriksizce ele alacağı promptlarda pes ettiğini hissetmeyecekleri kadar yüksektir.

Yerel kalmaya ihtiyaç duyan görüntü girişi iş akışları. Ekran görüntülerini okumak, fotoğraflardan metin çıkarmak, erişilebilirlik özellikleri için sahneleri tanımlamak — bunların hepsi 4B'de 1B'de olmayan şekillerde çalışır çünkü 1B görüntü girişine sahip değildir. Bulut gidiş-dönüşü olmadan görüntü anlama gerektiren mobil ve gömülü ürünler için, 4B giriş noktasıdır.

Mütevazı ölçekte kendi kendine barındırılan üretim çıkarımı. Tek bir GPU sunucusunda dahili araçları çalıştıran ekipler, iki yıl önce çok daha büyük bir model gerektiren kalite seviyelerinde 4B'yi sunabilir. Yönetilen bir API'nin çağrı başına maliyeti olmadan ara sıra akıl yürütmeye ihtiyaç duyan dahili sınıflandırıcılar, özetleyiciler ve araçlar için, kendi kendine barındırılan bir çalışma zamanında 4B genellikle doğru dengedir.

Nerede yetersiz kalıyor

Öncü akıl yürütme. Prompt gerçek zincirleme düşünce çalışması veya sıfırdan yeni sentez gerektirdiğinde 4B'ye başvurulacak model değildir. Gemma ailesinde 12B veya 27B'ye çıkın ya da bir bulut öncü modeline geçin.

Uzun bağlam dikkati. 32.768 token'lık pencere, model kartının listelediği şeydir. Pratik dikkat kalitesi, ilk 8k civarını geçtiğinde gözle görülür şekilde bozulur. Bu işaretin ötesindeki belge ağırlıklı iş yükleri için, daha büyük Gemma kardeşleri veya uzun bağlamlı bir bulut modeli daha uygun seçeneklerdir.

Çokdilli tutarlılık. 4B, büyük Avrupa dillerini yetkin bir şekilde ve Asya dillerini daha büyük kardeşlerinden daha değişken kaliteyle ele alır. Çokdilli kapsama birincil gereksinim olduğu iş yükleri için, taahhütte bulunmadan önce gerçek İngilizce olmayan promptlara karşı değerlendirin.

Görüntü anlama hassasiyeti. 4B'deki görüntü yeteneği kullanışlıdır ancak kusursuz değildir. Küçük etiketli yoğun grafikler, el yazısı içerik ve karmaşık çok öğeli sahneler, daha büyük modellerden gözle görülür şekilde daha kötü sonuçlar üretir. Görüntü kalitesinin merkezi özellik olduğu uygulamalar için, daha büyük Gemma seviyeleri veya özel görüntü modelleri daha iyi hedeflerdir.

Donanım hikayesi

4B dağıtım ekosistemi, 1B hikayesini yukarıya doğru genişletir.

llama.cpp aracılığıyla GGUF kuantizasyonları iyi çalışır. 4B'nin 4 bit kuantizasyonu, tüketici dizüstü bilgisayarlarında kullanılabilir hızlarda çalışır ve üç gigabaytın oldukça altında RAM'e sığar. Metal backend'li Apple Silicon'da verim gerçekten etkileyicidir. AVX-512 veya AVX2'li x86'da rakamlar daha yavaştır ancak etkileşimli iş yükleri için hala kabul edilebilir düzeydedir.

GPU çıkarımı, 4B'de konfor bölgesine girer. Sekiz gigabayt VRAM'li bir tüketici GPU'su, kuantize edilmemiş modeli bol alanla sunar. Mütevazı sunucu GPU'larında, düzinelerce eşzamanlı isteğin toplu boyutları elde edilebilir. Verim-başına-watt hikayesi, bu seviyede kendi kendine barındırmayı yönetilen çıkarımla gerçekten maliyet açısından rekabetçi kılan şeylerden biridir.

MediaPipe, ONNX Runtime ve daha geniş açık kaynaklı dağıtım ekosisteminin geri kalanı, 1B'nin yanı sıra 4B'yi de destekler. Daha küçük model için işe yarayan entegrasyon yolları burada da çalışmaya devam eder.

Sahaya karşı

4B-7B seviyesi, açık ağırlıklı ekosistemin en yoğun olduğu yerdir. Gemma 3 4B, karşılaştırılabilir ölçeklerdeki Llama 3.2 3B ve 8B varyantlarıyla, Microsoft'un Phi-3 ailesiyle, Qwen 2.5 4B ve 7B seviyeleriyle ve biraz daha büyük iş yükleri için Mistral 7B ailesiyle rekabet eder.

Her birinin kendine özgü bir karakteri vardır. Llama varyantları en derin açık kaynaklı araç desteğine ve en güçlü topluluk ince ayar ekosistemine sahiptir. Phi, akıl yürütme şeklindeki kıyaslamalarda ağırlığının üzerinde vurur. Qwen en güçlü Çince ve Doğu Asya dil kapsamına sahiptir. Mistral'ın biraz daha büyük modelleri, daha fazla donanım pahasına daha iyi temel akıl yürütme sunar.

Gemma 3 4B'nin ayırt edici konumu, bu ölçekte görüntü girişinin, Google dağıtım ekosistemi hikayesinin ve gerçekten ticari dostu olan lisansın birleşimidir. Görüntü yetenekli cihaz üzerinde veya kendi kendine barındırılan özellikler oluşturan ekipler için, 4B genellikle en az direncin yoludur.

Saha genelindeki sürekli karşılaştırma için bkz. /benchmarks/leaderboard.

Dağıtım notları

Kendi kendine barındırma, daha küçük Gemma serisinin geri kalanıyla aynı şekilde, birincil dağıtım hikayesidir. Model ağırlıkları, Gemma lisansı altında Hugging Face ve Google'ın dağıtım kanallarından edinilebilir.

Kuantizasyon seçimi anlamlıdır. 4 bit kuantizasyon, yeteneğin çoğunu korur ve bellek ayak izini dramatik bir şekilde azaltır. 8 bit kuantizasyon, iki kat bellek maliyetiyle bir miktar kaliteyi geri verir. Doğru cevap iş yüküne özgüdür; gerçek promptlarda her ikisini de kıyaslayın ve ölçülen değerlendirme puanlarına göre seçin.

Kendi kendine barındırılan bir GPU'da 4B'de toplu sunma, modern çıkarım motorlarından herhangi biri aracılığıyla basittir — vLLM, TGI veya giderek daha yetenekli llama.cpp sunucusu. Mevcut GPU kapasitesine sahip ekipler için, bir sunma filosuna Gemma 3 4B eklemek operasyonel olarak önemsizdir.

Mobil dağıtımlarda 4B'de pil etkisi, 1B'den anlamlı derecede daha yüksektir. Model hala telefonlarda dağıtılabilir ancak enerji bütçesinin daha dikkatli yönetilmesi gerekir. Modeli her tuş vuruşunda çalıştırmaktan kaçının; kullanıcı girişini net istek sınırlarına toplu olarak aktaran etkileşim kalıpları tasarlayın.

Daha geniş kendi kendine barındırılan boru hattı rehberliği için bkz. /usecases/local.

Seçme

Şunlara ihtiyacınız olduğunda Gemma 3 4B'ye başvurun:

  • Kendi kendine barındırılabilir veya cihaz üzerinde bir modelde metinle birlikte görüntü girişi.
  • Sadece yeterli olmaktan ziyade gerçekten faydalı olan akıl yürütme kalitesi.
  • Çağrı başına bulut ücretleri olmadan ticari dostu lisanslama.
  • Tüketici GPU'larına veya yetenekli mobil donanıma rahatça sığan bir model.

Akıl yürütme tavanı darboğaz haline geldiğinde Gemma 3 12B veya Gemma 3 27B'ye çıkın. Gecikme ve pil ömrü yeteneği geride bıraktığında Gemma 3 1B'ye inin.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Gemma 3 4B — illustration 2Gemma 3 4B — illustration 3
Son otomatik test
24 May 2026 · 04:55 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026