Kann ich Gemma 3 1B selbst hosten und fine-tunen?

Ja, Gemma 3 1B steht unter Googles offener Modelllizenz zur Verfügung und kann lokal betrieben sowie für eigene Domänen feinjustiert werden. Aufgrund der geringen Größe ist das Fine-Tuning auch auf bescheidener Hardware praktikabel.

Wie steht das Modell zu größeren Gemma-3-Varianten?

Gemma 3 1B ist die kleinste Variante der Reihe und priorisiert Effizienz statt Leistung. Für anspruchsvollere Aufgaben wie strukturiertes Reasoning oder komplexe Codegenerierung sollten Sie auf die 4B-, 12B- oder 27B-Variante ausweichen.

Reicht das 32k-Kontextfenster für reale Workloads?

Für die meisten Chat-, RAG- und Dokumentenverarbeitungs-Szenarien ist das Kontextfenster ausreichend dimensioniert. Bei sehr langen Dokumenten oder umfangreichen Konversationshistorien stoßen Sie jedoch schneller an Grenzen als bei größeren Modellen mit erweitertem Kontext.

Welche Hardwareanforderungen hat Gemma 3 1B in Produktion?

Mit rund einer Milliarde Parameter läuft das Modell auch auf Consumer-GPUs, leistungsstarken CPUs und teilweise auf mobilen Geräten. Quantisierte Varianten ermöglichen den Einsatz mit unter 1 GB Speicherbedarf.

Tier C — Spezialist

Läuft in:USErstellt in:United States

Archiviert

Dieses Modell wurde vom Anbieter eingestellt. Historische Daten bleiben erhalten.

Seit 24. Mai 2026 nicht mehr verfügbar.

Google Gemini

Gemma 3 1B

Tier C — Spezialist · 33K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

Gemma 3 1B ist ein leichtgewichtiges Modell zur Textgenerierung, das von Google im Rahmen der Gemma-Familie offener Sprachmodelle entwickelt wurde. Es ist für den effizienten Einsatz in ressourcenbeschränkten Umgebungen konzipiert und liefert dabei solide Leistung bei gängigen Aufgaben der natürlichen Sprachverarbeitung. Das Modell unterstützt ein Kontextfenster von 33.000 Tokens und kann damit mittellange Dokumente und Konversationen verarbeiten. Das Modell basiert auf einer Decoder-only-Transformer-Architektur und wurde auf einem vielfältigen Textkorpus trainiert. Mit rund 1 Milliarde Parametern stellt es die kleinste Konfiguration der Gemma-3-Reihe dar und priorisiert Inferenzgeschwindigkeit sowie Speichereffizienz gegenüber maximaler Leistungsfähigkeit. Es bewältigt typische Aufgaben der Textgenerierung wie Frage-Antwort-Szenarien, Zusammenfassungen, kreatives Schreiben und allgemeine Dialoge, kann jedoch bei hochspezialisierten oder komplexen Denkaufgaben gegenüber größeren Varianten Grenzen zeigen. Innerhalb von Googles Modellpalette dient Gemma 3 1B als Einstiegsoption für Entwickler und Forschende, die akzeptables Sprachverständnis bei minimalem Rechenaufwand benötigen. Es liegt in puncto Leistungsfähigkeit unter den größeren Gemma-3-Modellen, bietet aber Vorteile bei Einsatzflexibilität und Betriebseffizienz. Das Modell wird unter Googles offener Modelllizenz veröffentlicht und steht damit für Experimente, Feinabstimmung und die Integration in Anwendungen zur Verfügung, in denen Rechenressourcen begrenzt sind oder schnelle Inferenz Vorrang vor maximaler Genauigkeit hat.

Gemma 3 1B ist Googles bewusst minimalistischer Einstiegspunkt in die Gemma-3-Familie – konzipiert für Geräte und Workloads, bei denen jeder Megabyte und jede Millisekunde zählt.
— Tokonomix Modellanalyse

Abschnitt 01

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Sehr schnelle InferenzgeschwindigkeitGeringer SpeicherbedarfGeeignet für Edge- und On-Device-Einsatz32k Kontextfenster trotz kompakter GrößeOffene Lizenz für Fine-TuningNiedrige Betriebskosten im Self-HostingEinfache Integration in bestehende PipelinesGut für Prototyping und Experimente

Schwächen

Schwächen bei komplexem ReasoningBegrenzte Mehrsprachigkeit gegenüber größeren VariantenKein Multimodal-Support, reine TextverarbeitungBegrenztes Faktenwissen durch kleine Parameterzahl

Abschnitt 02

Fähigkeiten

outputTokenLimit: 8192

Abschnitt 03

Häufig gestellte Fragen

Das Modell eignet sich besonders für einfache Textgenerierung, Klassifikation, Zusammenfassungen kurzer Inhalte und Chat-Interaktionen mit geringem Anspruch. Ideal ist es für Edge-Deployments, mobile Anwendungen und kostensensitive Backend-Tasks.

Als Tier-C-Modell ist Gemma 3 1B kein Allrounder, sondern ein präzises Werkzeug für leichtgewichtige Inferenz am Rand des Netzwerks. Wer Geschwindigkeit und geringen Ressourcenverbrauch über tiefe Reasoning-Fähigkeit stellt, trifft hier eine solide Wahl.
— Tokonomix Benchmark-Zusammenfassung

Abschnitt 04

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-548/100 · 4 runs

1 correct1 partial2 wrong25% accuracy

● 2026-05-22

Baseline-Benchmarks für das Gemma 3 1B Instruction-Modell etabliert

Gemma 3 1B etabliert sein Basis-Leistungsprofil als kompaktes, instruction-tuned Sprachmodell. Das Modell zeigt starke Reasoning-Fähigkeiten mit 83,8 % auf GPQA Diamond, was solide Leistung bei Reasoning-Aufgaben auf Graduiertenniveau belegt. Bei der mathematischen Problemlösung erreicht es 50,9 % auf MATH-500, während die allgemeinen Wissensfähigkeiten 71,1 % auf MMLU Pro erzielen. Die Coding-Leistung liegt bei 49,4 % auf LiveCodeBench und stellt eine moderate Fähigkeit für ein 1B-Parameter-Modell dar. Im Bereich Instruction Following erreicht das Modell 42,7 % auf IFEval, was Verbesserungspotenzial bei der strikten Einhaltung komplexer Anweisungen aufzeigt. Die mehrsprachige Leistung auf MGSM erreicht 61,2 % und zeigt eine angemessene sprachübergreifende Reasoning-Fähigkeit. Als kompaktes Modell der ersten Generation in der Gemma 3-Serie positionieren diese Benchmarks es als leistungsfähige Small-Scale-Option für Anwendungen, bei denen Ressourceneffizienz wichtig ist. Nutzer können solides allgemeines Reasoning und Wissensabruf erwarten, mit moderater Leistung bei spezialisierten Aufgaben wie Coding und komplexem Instruction Following. Die Stärke des Modells auf GPQA Diamond im Verhältnis zu anderen Metriken deutet auf eine besondere Eignung für wissenschaftliche und analytische Reasoning-Aufgaben hin.

Quality

—

Latency p50

—

Test runs

✓ Starke Leistung bei GPQA Diamond✓ Solide MMLU-Pro-Ergebnisse✗ Mäßiges Befolgen von Anweisungen✗ Eingeschränkte Programmierfähigkeiten

Abschnitt 06

Vollständiges Modellprofil

Gemma 3 1B: die On-Device-Stufe von Googles Open-Weight-Familie

Gemma 3 1B ist das kleinste Mitglied der instruction-tuned Gemma-3-Familie von Google. Rund eine Milliarde dichte Parameter, ein Kontextfenster von 32.768 Tokens und eine Lizenz, die permissiv genug ist, um das Modell ohne Pro-Aufruf-Gebühren in kommerzielle Produkte zu integrieren. Es ist das Modell der Familie, das auf dem Gerät selbst laufen soll — Smartphone-SoCs, lüfterlose Embedded-Boards, browserbasierte WebGPU-Runtimes — und nicht im Rechenzentrum.

Wenn Ihre Zielarchitektur Begriffe wie „keine Internetverbindung erforderlich" enthält, ist das der Teil der Gemma-Reihe, den Sie zuerst evaluieren sollten.

Wofür das 1B-Modell gedacht ist

In 1B-Deployments tauchen drei Arbeitslast-Profile immer wieder auf.

On-Device-Assistenten. Sprach- oder Text-Interaktion, die auch dann funktionieren muss, wenn das Netz nicht verfügbar ist, und bei denen die Latenz eines Round-Trips ins Rechenzentrum selbst das Problem ist. Denken Sie an Reise-Apps, die im Flugmodus funktionieren müssen, an Point-of-Sale-Systeme mit unzuverlässiger Konnektivität, an Industrie-Tablets in Umgebungen mit lückenhafter Netzabdeckung.

Datenschutzsensible Workflows, bei denen Daten das Gerät nicht verlassen dürfen. Gesundheits-Apps mit regulierten Daten, juristisch nahestehende Anwendungen, Finanzsoftware, bei der die Audit-Story für Cloud-Inferenz schlicht zu teuer in der Umsetzung ist. Das 1B-Modell bietet eine ausreichend leistungsfähige Textoberfläche, um diese Workloads vollständig lokal auszuführen.

Latenzkritische Interaktionen, bei denen der Round-Trip zu einem Cloud-Modell den Flaschenhals bildet. Echtzeit-Text-Vorschläge in IDE-Plugins, Predictive-Text-Funktionen, kontextsensitive Hilfen, die sich sofort anfühlen müssen. Das 1B-Modell kann diese Anwendungsfälle auf moderner Hardware mit einstelligen Millisekunden-Latenzen bedienen.

Wofür 1B nicht geeignet ist: alles, was ernsthaftes Reasoning erfordert. Mehrstufige Planung, Code-Synthese aus dem Nichts, komplexe Extraktion über lange Dokumente hinweg — all das liegt sichtbar außerhalb der Komfortzone dieses Modells. Die Reasoning-Obergrenze ist real und niedriger als bei der nächsten Stufe, Gemma 3 4B.

Hardware- und Runtime-Story

Das Deployment-Ökosystem rund um kleine Gemma-Modelle ist mittlerweile zu etwas wirklich Brauchbarem herangereift. Das Modell läuft über:

llama.cpp mit GGUF-Quantisierungen. Die Standardantwort für CPU-Inferenz, mit vernünftiger Performance auf Consumer-Laptops und hoher Performance auf Apple Silicon. Quantisierungen bis hinunter zu 4-Bit und sogar darunter sind beim 1B-Modell praktikabel, da der Qualitätsverlust durch die Quantisierung relativ zur Gesamtfähigkeit des Modells gering ausfällt.

MediaPipe. Googles eigenes Framework für plattformübergreifendes Deployment. Produktionsreif auf Android und iOS, mit angemessener Web-Unterstützung über WebGPU.

ONNX Runtime. Das Framework der Wahl für Teams, die bereits auf den Deployment-Stack von Microsoft standardisiert sind, mit guter Performance über CPU und verschiedene GPU-Backends hinweg.

Die Kennzahl auf einem aktuellen Apple-M-Series-Chip oder einer konkurrenzfähigen x86-CPU liegt im Bereich mehrerer Dutzend Tokens pro Sekunde beim unquantisierten Modell und bei über hundert Tokens pro Sekunde bei einer 4-Bit-Quantisierung. Auf Smartphone-SoCs sinken die Werte, bleiben aber für die Interaktionsmuster, für die das Modell konzipiert ist, brauchbar.

Wo es an seine Grenzen stößt

Reasoning-Tiefe. Das Parameterbudget von einer Milliarde setzt eine harte Obergrenze dafür, wie weit das Modell Argumentationsketten verfolgen kann. Für alles, was echte mehrstufige Inferenz erfordert, wechseln Sie innerhalb der Gemma-Familie auf 4B oder 12B oder direkt zu einem Cloud-Modell.

Long-Context-Attention. Das Fenster von 32.768 Tokens ist das, was die Model Card angibt. Die praktische Attention-Qualität verschlechtert sich deutlich, bevor das nominale Limit erreicht wird. Behandeln Sie 1B als Short-Context-Modell, unabhängig davon, was in der Dokumentation steht.

Wissensbreite. Ein Modell mit einer Milliarde Parametern hat nur begrenzte Kapazität, Fakten zu speichern. Aufgaben, die darauf angewiesen sind, dass das Modell spezifische Informationen aus seinen Trainingsdaten kennt, sind unzuverlässig; Retrieval-Augmented-Patterns funktionieren besser.

Polyglott-Abdeckung. Die Gemma-Familie ist stärker englischlastig, als es ihre Größe vermuten ließe. Große europäische Sprachen liefern akzeptable Ergebnisse. Weniger ressourcenreiche Sprachen erzeugen auf der 1B-Stufe spürbar schlechtere Resultate als bei den größeren Gemma-Geschwistern, bei denen mehr Parameterbudget für mehrsprachige Abdeckung zur Verfügung steht.

Im Vergleich zum Feld

Der On-Device-Bereich unter 2B ist umkämpft. Gemma 3 1B konkurriert mit Microsofts Phi-3-mini, Apples On-Device-Modellen, den kleineren Llama-3.2-Varianten und den Modellen der kleinen Qwen-2.5-Stufe.

Jedes hat sein eigenes Temperament. Phi-3-mini schneidet beim Reasoning für seine Größe stark in Benchmarks ab und überrascht gelegentlich, indem es über seinem Gewicht boxt. Die Llama-3.2-Varianten verfügen außerhalb von Google selbst über die stärkste Open-Source-Ökosystem-Unterstützung. Qwen-Varianten sind am stärksten in der Abdeckung des Chinesischen und ostasiatischer Sprachen.

Die unterscheidende Stellung von Gemma 3 1B ist die Deployment-Story. Die Integration mit Googles eigenem MediaPipe-Stack, die WebGPU-Unterstützung, die sauber in Browser-Umgebungen landet, und die Lizenzbedingungen, die kommerzieller Nutzung freundlich gegenüberstehen, machen 1B zusammen zum Weg des geringsten Widerstands für Teams, die On-Device-Features in Consumer-Produkten ausliefern. Das Modell selbst ist konkurrenzfähig; das umgebende Ökosystem ist der Differenzierungsfaktor.

Deployment-Hinweise

Self-Hosting ist die gesamte Deployment-Story. Gemma 3 1B wird über Googles verwaltete Inferenz-Oberflächen nicht in einer Weise angeboten, die mit dem On-Device-Deployment-Muster konkurriert. Die Modellgewichte sind unter der Gemma-Lizenz von Hugging Face und über Googles eigene Distributionskanäle herunterladbar.

Die Wahl der Quantisierung wiegt bei kleinen Modellen schwerer, als die meisten erwarten. Eine 4-Bit-Quantisierung von 1B erhält den Großteil der Fähigkeiten und ergibt ein Modell, das in deutlich unter einem Gigabyte RAM läuft; eine 8-Bit-Quantisierung gibt zum doppelten Speicherbedarf etwas Qualität zurück. Die pragmatische Antwort lautet, beide Varianten auf der tatsächlichen Arbeitslast zu benchmarken und auf Basis gemessener Evaluierungs-Scores zu entscheiden — nicht aufgrund von Quantisierungs-Bit-Anzahl-Bauchgefühl.

Die Auswirkung auf den Akku bei mobilen Deployments ist real, aber beherrschbar. Inferenz auf der 1B-Stufe verbraucht spürbar Strom; Design-Muster, die unnötiges Ausführen des Modells vermeiden — Caching von Antworten, Debouncing von Nutzereingaben, das Modell nur dann aufzurufen, wenn die Anfrage klar ist —, halten das Energiebudget vernünftig.

Für das umfassendere Self-Host-Pipeline-Bild siehe /usecases/local.

Wann es die richtige Wahl ist

Greifen Sie zu Gemma 3 1B, wenn Sie Folgendes benötigen:

On-Device-Inferenz ohne Netzwerk-Round-Trip.
Eine permissive Lizenz für kommerzielles Deployment.
Ausgereifte Deployment-Pfade in mobile, eingebettete und Browser-Runtimes.
Vorhersehbare, niedrige Latenzen bei der Textgenerierung auf Consumer-Hardware.

Wechseln Sie zu Gemma 3 4B oder Gemma 3 12B, sobald die Reasoning-Qualität zum Flaschenhals wird. Wechseln Sie komplett zu einem Cloud-Modell, wenn die Geräte-Restriktion nicht mehr bindend ist und die Arbeitslast von Frontier-Fähigkeiten profitiert.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

24. Mai 2026 · 04:54 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026