Was bedeutet der Preview-Status für Produktionsumgebungen?

Als Preview-Version können sich Features und Leistungsmerkmale noch ändern. Für geschäftskritische Produktionsanwendungen sollten stabilere Modelle in Betracht gezogen werden. Der Preview-Zugang ermöglicht jedoch frühes Experimentieren mit Googles Lightweight-Architektur.

Wie unterscheidet sich Flash Lite von Standard-Gemini-Modellen?

Die Bezeichnung 'Flash' signalisiert Optimierung auf niedrige Latenz, während 'Lite' eine schlankere Architektur mit geringerem Ressourcenbedarf andeutet. Dies geht zugunsten schnellerer Antwortzeiten, kann jedoch die maximale Leistungsfähigkeit im Vergleich zu größeren Varianten einschränken.

Kann das Modell Bilder oder Audio verarbeiten?

Nein, Gemini 3.1 Flash Lite Preview konzentriert sich ausschließlich auf Textgenerierung ohne multimodale Fähigkeiten. Für Bild- oder Audioverarbeitung sind andere Modelle aus der Gemini-Familie erforderlich.

Wie viel Kontext kann ich in einer Anfrage übergeben?

Das Modell unterstützt bis zu 1.048.576 Token (ca. 1 Million Token), was etwa 700.000-800.000 Wörtern entspricht. Dies ermöglicht die Verarbeitung sehr umfangreicher Dokumente, Codebasen oder langer Gesprächsverläufe in einem einzigen Request.

Tier C — Spezialist

Läuft in:USErstellt in:United States

Archiviert

Dieses Modell wurde vom Anbieter eingestellt. Historische Daten bleiben erhalten.

Seit 27. Mai 2026 nicht mehr verfügbar.

Google Gemini

Gemini 3.1 Flash Lite Preview

Tier C — Spezialist · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Gemini 3.1 Flash Lite Preview ist ein schlankes Modell zur Textgenerierung, das von Google im Rahmen der Gemini-Modellfamilie entwickelt wurde. Diese Preview-Version ist für gängige Aufgaben der Textgenerierung konzipiert, bei denen Geschwindigkeit und Effizienz Vorrang vor maximaler Leistungsfähigkeit haben. Sie stellt eine zugängliche Option für Entwickler und Anwendungen dar, die schnelle Antwortzeiten bei geringerem Rechenaufwand gegenüber größeren Modellen der Reihe erfordern. Das Modell verfügt über ein Kontextfenster von 1.048.576 Tokens (1M Tokens) und kann dadurch umfangreiche Texteingaben verarbeiten und dabei kohärent bleiben. Diese erweiterte Kontextkapazität ermöglicht die Bearbeitung komplexer Dokumente, langer Konversationen sowie Aufgaben, die umfangreiche historische Informationen erfordern. Gemini 3.1 Flash Lite Preview konzentriert sich auf zentrale Textgenerierungsfähigkeiten ohne multimodale Funktionen und eignet sich somit für Anwendungen wie Content-Erstellung, Konversationsschnittstellen, Zusammenfassungen und allgemeine Aufgaben der natürlichen Sprachverarbeitung. Innerhalb des Gemini-Ökosystems von Google nimmt dieses Modell eine Position ein, die für Anwendungen mit Ressourcenbeschränkungen optimiert ist. Die Bezeichnung „Flash" steht für eine Optimierung auf geringere Latenz, während „Lite" auf eine schlankere Architektur im Vergleich zu Standard-Gemini-Varianten hinweist. Als Preview-Release bietet es Entwicklern frühzeitigen Zugang zu Googles weiterentwickelter Leichtmodell-Architektur, wobei sich Funktionen und Leistungsmerkmale auf dem Weg zur allgemeinen Verfügbarkeit noch ändern können. Dieses Modell spiegelt Googles Ansatz wider, innerhalb der Gemini-Familie verschiedene Leistungsstufen anzubieten, um unterschiedlichen Anwendungsanforderungen gerecht zu werden.

Gemini 3.1 Flash Lite Preview positioniert sich als schlanke Alternative für Anwendungen, bei denen Geschwindigkeit und Effizienz wichtiger sind als maximale Leistungsfähigkeit. Mit einem Millionen-Token-Kontextfenster bietet das Modell beachtliche Verarbeitungskapazität trotz seiner Lightweight-Architektur.
— Tokonomix Modellanalyse

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 3.1 Flash Lite Preview

$0.2500 pro 1M Input-Tokens

$1.50 pro 1M Output-Tokens

≈ $0.0004 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.2500

pro 1M Output-Tokens$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

— no change

$1.50

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Optimiert für niedrige Latenz1M Token KontextfensterReduzierter RessourcenverbrauchGeeignet für KonversationsschnittstellenSchnelle TextgenerierungFrüher Zugang zu neuer ArchitekturVerarbeitung umfangreicher DokumenteFokus auf Kernfunktionalität

Schwächen

Preview-Status ohne StabilitätsgarantieKeine multimodalen FähigkeitenTier C LeistungsniveauUnbekannte Capability-Details

Abschnitt 03

Fähigkeiten

outputTokenLimit: 65536

Abschnitt 04

Häufig gestellte Fragen

Gemini 3.1 Flash Lite Preview ist ideal für Content-Erstellung, Chatbots, Zusammenfassungen und NLP-Aufgaben, bei denen Geschwindigkeit wichtiger ist als höchste Genauigkeit. Das große Kontextfenster ermöglicht die Verarbeitung langer Dokumente und ausgedehnter Konversationen.

Als Preview-Version eignet sich dieses Modell für Teams, die frühzeitig Googles Lightweight-Architektur testen möchten, ohne auf großzügiges Kontextfenster verzichten zu müssen. Der Tier-C-Status spiegelt die bewusste Priorisierung von Ressourceneffizienz wider.
— Tokonomix Editorial Team

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-596/100 · 68 runs

65 correct3 partial0 wrong96% accuracy

● 2026-05-24

Qualitätssteigerungen und schnellere Antwortzeiten bei anhaltender technischer Exzellenz

Gemini 3.1 Flash Lite Preview zeigt in diesem Benchmark-Zeitraum messbare Verbesserungen bei zentralen Kennzahlen. Die Gesamtqualität stieg von 95.3 auf 96.5, während sich die Latenz um 20 % verbesserte – der p50-Wert sank von 2168ms auf 1741ms. Diese Fortschritte bedeuten spürbare Verbesserungen der Nutzererfahrung ohne Einbußen bei der Genauigkeit. Die technischen Fähigkeiten bleiben herausragend: Reasoning und Coding halten in beiden Zeiträumen jeweils die volle Punktzahl von 100. Die faktische Genauigkeit liegt mit 100 im aktuellen Zeitraum (zuvor 99) ebenfalls in der Spitzengruppe. Die Kategorie Kreativität zeigt eine gewisse Schwankung und fällt von 93 auf 87, bleibt damit aber solide wettbewerbsfähig. Die Kategorie zorg verbesserte sich deutlich von 87 auf 91, was auf eine bessere Bewältigung dieses Aufgabentyps hindeutet. Die reduzierte Zahl der Testdurchläufe von 28 auf 11 bedeutet, dass die aktuellen Ergebnisse auf einer kleineren Stichprobe basieren – die Konstanz der technischen Werte deutet jedoch auf stabile Leistung hin. Die Kombination aus schnelleren Antworten und gleichbleibender Genauigkeit macht diese Iteration besonders stark für Anwendungen, die sowohl Geschwindigkeit als auch Präzision erfordern. Nutzer können bei Reasoning-intensiven und Coding-Aufgaben mit zuverlässiger Leistung rechnen und profitieren zugleich von merklich kürzeren Wartezeiten.

Quality

96.5

Latency p50

1,741 ms

Test runs

✓ 20 % schnellere Antwortzeiten✓ Qualitätsscore auf 96,5 verbessert✓ Zorg-Leistung gesteigert✗ Kreativitätswerte gesunken

Abschnitt 07

Vollständiges Modellprofil

Gemini 3.1 Flash Lite Preview: die Kostenstufe der nächsten Generation

Hinweis — zukunftsgerichtetes Profil. Gemini 3.1 Flash Lite Preview (gemini-3.1-flash-lite-preview) ist ein Preview-Snapshot. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern.

Der Kostenstufen-Einstieg der nächsten Generation in Googles Flash-Familie. Ein Kontextfenster von 1.048.576 Token. Text- und Vision-Eingabe. Gebaut, um die Lite-Stufe bei Reasoning-Qualität und Zuverlässigkeit strukturierter Ausgaben voranzubringen, während die Kostenpositionierung beibehalten wird, die frühere Lite-Snapshots für hochvolumige Arbeit nutzbar machte.

Die treffendste Beschreibung: 3.1 Flash Lite ist das Modell, nach dem man greift, wenn 2.5 Flash-Lite die gewünschte Kostenstufe ist, aber die Qualität der limitierende Faktor war. Die 3.1-Generation schließt einen Teil dieser Lücke. Ob die Lückenschließung ausreicht, um Migration von einem funktionierenden 2.5-Flash-Lite-Deployment zu rechtfertigen, hängt vom spezifischen Workload ab.

Was sich gegenüber 2.5 Flash-Lite geändert hat

Die 3.1-Lite-Generation bringt mehrere Verbesserungen gegenüber dem 2.5-Lite-Snapshot:

Stärkeres Reasoning bei mehrstufigen Aufgaben. Frühere Lite-Stufen behandelten einfache Extraktion und Klassifizierung sauber, streckte sich aber bei verketteten Reasoning-Ketten. Der 3.1-Preview zeigt hier bedeutende Verbesserung.
Bessere Long-Context-Aufmerksamkeitsqualität in der Tiefe. Hält jenseits von 200k Eingabe-Token zuverlässiger zusammen als die 2.5-Lite-Generation.
Verbesserte Einhaltung strukturierter Ausgaben. JSON-Schemas halten auch bei komplexen verschachtelten Layouts zuverlässig, wo das 2.5 Lite gelegentlich abwich.
Konsistentere Ablehnungshaltung. Grenzwertige Prompts werden behandelt, was sich stärker an die größeren Gemini-Modelle anlehnt — weniger inkonsistente Calls zwischen Beantwortet und Abgelehnt.
Schärfere Vision-Qualität bei Dokumentenleseaufgaben. Noch nicht auf dem vollen Flash-Varianten-Niveau, aber die Lücke ist kleiner als in der 2.5-Generation.

Nichts davon ist einzeln dramatisch. Der kumulative Effekt ist eine Lite-Stufe, die mehr von dem tut, was eine Lite-Stufe können sollte.

Was es gut kann

Die Schlagzeilen-Kombination bleibt dieselbe wie in der 2.5-Lite-Generation: ein Million-Token-Kontextfenster zu einem Lite-Tier-Preis. Der 3.1-Preview macht diese Kombination für Synthese-artige Workloads nutzbarer, bei denen die früheren Lite-Stufen abfielen.

Latenz hält bei kurzen Prompts gut stand. Das Flash-Lite-Branding verdient sich seinen Platz bei Streaming-Reaktionsfähigkeit. Für Echtzeit-Chat-Erlebnisse zu niedrigen Kosten ist das Latenzprofil wirklich nutzbar.

Multimodale Eingabe behandelt routinemäßige Dokumentenlese-Arbeit sauber. Screenshots, gescannte Formulare, Dashboard-Aufnahmen — ausreichend für die meisten Extraktions-Pipelines.

Tool-Use und strukturierte Ausgabe sind zuverlässig genug für agentisch geformte Workloads dieser Stufe. Schema-Einhaltung ist gegenüber 2.5 Lite verbessert.

Was es schlecht kann

Noch eine Lite-Stufe. Für wirklich schwieriges mehrstufiges Reasoning sind die vollen 3.x-Flash-Varianten oder die Pro-Stufe der richtige Aufstieg.

Long-Context-Aufmerksamkeitsqualität in der Tiefe ist besser als die 2.5-Lite-Generation, bleibt aber bei der Synthese über verstreute Fakten hinter den vollen Flash-Varianten. Für reine Retrieval-Abfragen hält die Lite-Stufe stand; für Synthese in der Tiefe aufsteigen.

Vision-Qualität ist verbessert, liegt aber noch unter der vollen Flash-Variante. Für vision-lastige Workloads, bei denen Bildqualität wichtiger ist als Kosten, ist dies der falsche Ausgangspunkt.

Preview-Tier-Überlegungen gelten. Ratenlimits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit verschieben. Für Produktions-Workloads, die heute stabile Verhaltensweisen brauchen, bleibt 2.5 Flash-Lite die konservativere Wahl.

Einordnung in die Modelllandschaft

Gegenüber früheren Lite-Snapshots — 2.5 Flash-Lite: Der 3.1-Preview ist der natürliche Upgrade-Pfad für Neubauten. Für bestehende Deployments hängt der Migrationsfall davon ab, ob die Qualitätsverbesserungen für den spezifischen Workload wichtig sind und ob Preview-Tier-Verhalten akzeptabel ist.

Gegenüber den vollen 3.x-Flash-Previews: Die vollen Varianten übertreffen die Lite-Variante in allen Bereichen, wie erwartet. Die Wahl zwischen Lite und Full bei der 3.x-Generation kommt auf Kosten-versus-Qualität beim spezifischen Workload an — derselbe Kompromiss wie bei der 2.5-Generation.

Gegenüber Konkurrenten im gleichen Band: Claude Haiku 4.5 bleibt das stärkste kleine Modell bei reasoning-lastigeren Workloads, hat aber kein 1M-Kontextfenster. Kleinere OpenAI-Varianten konkurrieren bei Geschwindigkeit, typischerweise mit kürzeren Kontexten. Für Kosten pro Aufruf bei hohem Volumen mit langem Kontext ist der 3.1 Flash Lite Preview positioniert, sein Band bei allgemeiner Verfügbarkeit anzuführen.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und die Kategorie-Scores auf /benchmarks/intelligence.

Wo es wirklich nützlich ist

Einige Workloads, bei denen der 3.1-Lite-Preview sauber passt:

Hochvolumiges FAQ-Routing und Klassifizierung, bei dem der entscheidende Faktor Durchsatz ist, aber das Reasoning von 2.5 Lite gelegentlich zu dünn war.
Kundenservice-Triage in großem Maßstab mit mehrstufiger Routing-Logik.
Long-Context-Retrieval gegen strukturierte Dokumente, bei dem die Aufmerksamkeitsqualität jenseits von 200k Token wichtig ist.
Prototyping neuer Agent-Designs, bei dem die Kosten pro Aufruf niedrig genug sind, dass Experimentieren keine Budgetgenehmigung erfordert.
Mehrsprachiger Kundensupport, bei dem die 3.1-Generation gängige europäische Sprachen mit etwas besserer Terminologie-Treue behandelt.

Wann es das falsche Werkzeug ist

Produktions-Workloads, die heute stabiles Verhalten brauchen. 2.5 Flash-Lite verwenden, bis der 3.1-Preview allgemeine Verfügbarkeit erreicht.

Alles, das tiefes mehrstufiges Reasoning erfordert. Zu den vollen 3.x-Flash-Varianten oder zur Pro-Stufe wechseln.

Vision-lastige Workloads, bei denen Bildqualität wichtig ist. Die vollen Flash-Varianten produzieren merklich bessere Ausgaben.

Sicherheitskritische Anwendungen ohne nachgelagerte Verifizierung. Die Ablehnungshaltung ist verbessert, aber noch nicht auf dem Niveau größerer Gemini-Modelle.

Echtzeit-Sprache. Keine Audio-Eingabe. Den Voice-Pipeline-Leitfaden auf /usecases/voice konsultieren.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich erwartungsgemäß für die zugrunde liegende Fähigkeitsoberfläche.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen ist die regionale Vertex-AI-Dokumentation die richtige Referenz.

Preview-Tier-Preise sollten nicht als Grundlage für langfristige Kostenmodellierung dienen. Die Preisstruktur bei allgemeiner Verfügbarkeit kann sich von den Preview-Tier-Raten unterscheiden. Kapazitätsannahmen entsprechend planen.

Ratenlimits und Verhaltenstabilität sind die wichtigsten operativen Überlegungen während der Preview. Produktionsmigration sollte die Möglichkeit von Verhaltensänderungen vor allgemeiner Verfügbarkeit einplanen und nachgelagerte Verträge gegen die sich entwickelnden Modellausgaben validieren.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 3.1 Flash Lite Preview, wenn:

Sie die nächste Generation von Lite-Tier-Fähigkeiten für zukünftige Produktionsdeployments erkunden.
Der Workload durch 2.5 Flash-Lites Reasoning-Tiefe eingeschränkt war und Sie sehen wollen, ob 3.1 die Lücke schließt.
Preview-Tier-Ratenlimits für die Traffic-Form funktionieren.
Sie bereits auf dem Google-Stack sind und dort bleiben wollen.

Wählen Sie etwas anderes, wenn:

Sie heute produktionsstabiles Verhalten brauchen. 2.5 Flash-Lite verwenden.
Der Workload Reasoning-Tiefe oder Vision-Qualität jenseits dessen benötigt, was eine Lite-Stufe bietet.
Der Kostenstufen-Kompromiss plus bescheidenes Reasoning gewünscht wird, und 2.5 Flash-Lite es bereits abdeckt. Migration wäre in diesem Fall möglicherweise die Validierungsarbeit nicht wert.
Die Arbeit Audio, Sprache oder Video ist.

Zusammenfassung: Vielversprechender Lite-Tier-Snapshot der nächsten Generation, der bedeutende Lücken der 2.5-Generation schließt. Für Preview-Tier-Erkundung und zukunftsorientierte Designarbeit ist es der richtige Ausgangspunkt. Für produktionsstabile Deployments heute bleibt 2.5 Flash-Lite die konservative Wahl, bis die 3.1-Linie allgemeine Verfügbarkeit erreicht.

Testen Sie es mit denselben Prompts, die Sie durch 2.5 Flash-Lite laufen lassen, unter /live-test. Die Deltas zeigen sich am deutlichsten im direkten Vergleich.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

27. Mai 2026 · 21:59 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026