
Gemma 3 4B es el miembro mediano-pequeño de la familia de instrucción ajustada Gemma 3. Alrededor de cuatro mil millones de parámetros densos, una ventana de contexto de 32 768 tokens, soporte de entrada de visión y la misma licencia Gemma que facilita el despliegue comercial. Se sitúa en el tamaño donde el despliegue en dispositivo sigue siendo realista en hardware capaz y donde la calidad de razonamiento del modelo empieza a sentirse genuinamente útil en lugar de simplemente adecuada.
Para equipos que miran la línea Gemma pequeña, este suele ser el tier correcto para evaluar primero.
Para qué sirve el modelo 4B
La forma del trabajo cambia significativamente entre los tiers 1B y 4B. Tres patrones de carga de trabajo se mantienen consistentemente en 4B.
Asistentes en dispositivo capaces. Donde Gemma 3 1B es la elección correcta para interacciones cortas críticas en cuanto a latencia, 4B es la elección correcta para características en dispositivo que necesitan ser genuinamente útiles: redactar respuestas, resumir documentos locales, conversación de múltiples turnos que mantiene el contexto a lo largo de la sesión. El techo de razonamiento es suficientemente alto como para que los usuarios no sientan que el modelo se rinde en prompts que 1B tropezaría.
Flujos de trabajo de entrada de visión que necesitan permanecer locales. Leer capturas de pantalla, extraer texto de fotos, describir escenas para características de accesibilidad: todo funciona en 4B de formas que no funcionan en 1B porque 1B no tiene entrada de visión. Para productos móviles y embebidos que necesitan comprensión de imágenes sin un ida y vuelta a la nube, 4B es el punto de entrada.
Inferencia de producción auto-alojada a escala modesta. Los equipos que ejecutan herramientas internas en un servidor GPU único pueden servir 4B a niveles de calidad que habrían requerido un modelo mucho más grande hace dos años. Para clasificadores internos, resumidores y herramientas que necesitan razonamiento ocasional sin el coste por llamada de una API gestionada, 4B en un runtime auto-alojado es frecuentemente el equilibrio correcto.
Dónde falla
Razonamiento frontier. 4B no es el modelo al que recurrir cuando el prompt requiere trabajo genuino de cadena de pensamiento o síntesis novedosa desde cero. Suba a 12B o 27B en la familia Gemma, o a un modelo frontier en la nube.
Atención en contexto largo. La ventana de 32 768 tokens es lo que lista la tarjeta del modelo. La calidad de atención práctica se degrada visiblemente pasados los primeros 8k aproximadamente. Para cargas de trabajo con documentos pesados más allá de esa marca, los hermanos Gemma más grandes o un modelo en la nube de contexto largo encajan mejor.
Consistencia multilingüe. 4B gestiona los principales idiomas europeos con competencia y los idiomas asiáticos con una calidad más variable que los hermanos más grandes. Para cargas de trabajo donde la cobertura multilingüe es el requisito principal, evalúe con prompts que no sean inglés antes de comprometerse.
Precisión en la comprensión de imágenes. La capacidad de visión en 4B es útil pero no infalible. Los gráficos densos con etiquetas pequeñas, el contenido manuscrito y las escenas complejas de múltiples elementos producen resultados notablemente peores que los modelos más grandes. Para aplicaciones donde la calidad de visión es la característica central, los tiers Gemma más grandes o los modelos de visión dedicados son mejores objetivos.
La historia del hardware
El ecosistema de despliegue 4B extiende la historia de 1B hacia arriba.
Las cuantizaciones GGUF a través de llama.cpp funcionan bien. Una cuantización a 4 bits de 4B corre en portátiles de consumo a velocidades utilizables y cabe en bien menos de tres gigabytes de RAM. En Apple Silicon con el backend Metal, el rendimiento es genuinamente impresionante. En x86 con AVX-512 o AVX2, los números son más lentos pero aún aceptables para cargas de trabajo interactivas.
La inferencia GPU entra en la zona de confort en 4B. Una GPU de consumidor con ocho gigabytes de VRAM sirve el modelo sin cuantizar con margen de sobra. En GPUs de servidor modestas, son alcanzables tamaños de lote de decenas de solicitudes concurrentes. La historia de rendimiento por vatio es una de las cosas que hace al auto-alojamiento genuinamente competitivo en coste con la inferencia gestionada en este tier.
MediaPipe, ONNX Runtime y el resto del ecosistema de despliegue de código abierto más amplio soportan 4B junto con 1B. Las rutas de integración que funcionaban para el modelo más pequeño continúan funcionando aquí.
Frente al campo
El tier de 4B a 7B es donde el ecosistema de peso abierto es más denso. Gemma 3 4B compite con las variantes Llama 3.2 de 3B y 8B, con la familia Phi-3 de Microsoft a escalas comparables, con los tiers Qwen 2.5 de 4B y 7B y con la familia Mistral 7B para cargas de trabajo ligeramente mayores.
Cada uno tiene su temperamento. Las variantes Llama tienen el soporte de herramientas de código abierto más profundo y el ecosistema de ajuste fino comunitario más sólido. Phi supera a su peso en benchmarks de tipo razonamiento. Qwen tiene la cobertura de idiomas chino y del este asiático más sólida. Los modelos ligeramente más grandes de Mistral ofrecen un mejor razonamiento de referencia al coste de más hardware.
La posición distintiva de Gemma 3 4B es la combinación de entrada de visión a esta escala, la historia del ecosistema de despliegue de Google y la licencia que es genuinamente amigable para el comercio. Para equipos que construyen características en dispositivo o auto-alojadas con capacidad de visión, 4B es frecuentemente el camino de menor resistencia.
Para la comparación continua en el sector, consulte /benchmarks/leaderboard.
Notas de despliegue
El auto-alojamiento es la historia principal de despliegue, igual que el resto de la línea Gemma más pequeña. Los pesos del modelo están disponibles desde Hugging Face y los canales de distribución de Google bajo la licencia Gemma.
La elección de cuantización es significativa. La cuantización a 4 bits preserva la mayor parte de la capacidad y reduce drásticamente la huella de memoria. La cuantización a 8 bits devuelve algo de calidad al doble del coste de memoria. La respuesta correcta es específica de la carga de trabajo; haga benchmarking de ambas en prompts reales y elija basándose en puntuaciones de evaluación medidas.
El servicio por lotes en 4B en una GPU auto-alojada es sencillo a través de cualquiera de los modernos motores de inferencia: vLLM, TGI o el servidor llama.cpp cada vez más capaz. Para equipos con capacidad GPU existente, añadir Gemma 3 4B a una flota de servicio es operacionalmente trivial.
El impacto en la batería en los despliegues móviles en 4B es notablemente mayor que en 1B. El modelo sigue siendo desplegable en teléfonos pero el presupuesto energético necesita una gestión más cuidadosa. Evite ejecutar el modelo en cada pulsación de tecla; diseñe patrones de interacción que agrupe la entrada del usuario en límites de solicitud claros.
Para orientación más amplia sobre pipelines auto-alojados, consulte /usecases/local.
Cuándo elegirlo
Use Gemma 3 4B cuando necesite:
- Entrada de visión junto con texto en un modelo auto-alojable o en dispositivo.
- Calidad de razonamiento que sea genuinamente útil en lugar de simplemente adecuada.
- Licencia amigable para el comercio sin tarifas de nube por llamada.
- Un modelo que encaje cómodamente en GPUs de consumidor o hardware móvil capaz.
Suba a Gemma 3 12B o Gemma 3 27B cuando el techo de razonamiento se convierte en el cuello de botella. Baje a Gemma 3 1B cuando la latencia y la duración de la batería superen a la capacidad.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

