Wie groß ist der Kontext?

1.048.576 Tokens – rund 1 Million, was sehr lange Dokumente und komplexe Konversationen ermöglicht.

Ist die Preview für Produktionseinsatz geeignet?

Noch nicht – sie dient der Evaluation und dem Entwickler-Feedback vor dem GA-Release.

Für welche Aufgaben lohnt der Preview-Einsatz?

Zusammenfassungen langer Dokumente, Code-Analyse, mehrsprachige Inhalte und Szenarien, die riesige Kontextmengen erfordern.

Tier C — Spezialist

Läuft in:USErstellt in:United States

Google Gemini

Gemini 3 Flash Preview

Tier C — Spezialist · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

Gemini 3 Flash Preview ist ein großes Sprachmodell, das von Google im Rahmen der Gemini-Modellfamilie entwickelt wurde. Es ist für Standardaufgaben der Textgenerierung konzipiert und bietet Entwicklern sowie Forschenden Zugang zu fortschrittlichen Funktionen der natürlichen Sprachverarbeitung. Diese Preview-Version ermöglicht einen frühzeitigen Zugriff auf die Eigenschaften und Leistungsmerkmale der Flash-Variante vor der allgemeinen Verfügbarkeit. Das Modell verfügt über ein umfangreiches Kontextfenster von 1.048.576 Tokens (1M Tokens), wodurch es sehr lange Dokumente, ausgedehnte Konversationen oder große Codebasen verarbeiten und kohärent halten kann. Diese beachtliche Kontextkapazität macht es besonders geeignet für Anwendungen, die die Analyse umfangreicher Materialien, komplexer mehrstufiger Dialoge oder Aufgaben erfordern, die von einem Zugriff auf umfangreiche Referenzinformationen innerhalb eines einzigen Prompts profitieren. Innerhalb der Gemini-Reihe von Google ist die Flash-Variante als leistungsoptimierte Option positioniert, die Leistungsfähigkeit und Effizienz in Einklang bringt. Während sie eine starke Sprachverständnis- und Generierungsfähigkeit beibehält, sind Flash-Modelle im Vergleich zu ihren Ultra-Pendants auf schnellere Antwortzeiten ausgelegt, was sie für Anwendungen geeignet macht, bei denen Latenz eine Rolle spielt. Die Preview-Kennzeichnung weist darauf hin, dass es sich um eine Vorabversion handelt, die Nutzern die Bewertung der Modellfähigkeiten und das Geben von Feedback während des Entwicklungszyklus ermöglicht. Zu den Standardfunktionen der Textgenerierung zählen Aufgaben wie Zusammenfassung, Beantwortung von Fragen, Erstellung von Inhalten, Codegenerierung und dialogorientierte Interaktionen.

Gemini 3 Flash Preview: 1 Million Tokens Kontext im Flash-Tempo – ein früher Einblick in Googles nächste Modellgeneration.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 3 Flash Preview

$0.5000 pro 1M Input-Tokens

$3.00 pro 1M Output-Tokens

≈ $0.0009 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.5000

pro 1M Output-Tokens$3.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$3.00

output / 1M

— stable

2026-05-242026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1-Million-Token-KontextfensterFlash-optimierte GeschwindigkeitZugang zur Gemini-3-GenerationStandardsprachaufgaben aller ArtGoogle AI Platform IntegrationMehrsprachige Fähigkeiten

Schwächen

Preview – kein GA-StatusTiefes Reasoning eingeschränktFunktionen können sich ändern

Abschnitt 04

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535

Abschnitt 05

Häufig gestellte Fragen

Es bietet frühen Zugang zur Gemini-3-Architektur mit dem bekannten Flash-Geschwindigkeitsprofil und massivem Kontextfenster.

Für Entwickler, die Googles Flash-Leistung mit extremer Kontexttiefe früh testen wollen, ist diese Preview ein wertvolles Werkzeug.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 06

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-578/100 · 114 runs

79 correct17 partial18 wrong69% accuracy

● 2026-07-26

Severe quality regression with factual and reasoning capabilities degraded

Gemini 3 Flash Preview has experienced a dramatic quality decline, dropping from 99.1 to 48.5 overall score. The most concerning development is a complete failure in factual tasks, scoring 0 compared to the previous window's strong performance. Reasoning capabilities have also collapsed to just 5 points. While creative performance remains exceptional at 89 and multilingual support stays perfect at 100, these strengths cannot offset the critical losses in core capabilities. The coding category, which previously scored 99, was not tested in the current window, leaving questions about whether these capabilities remain intact. Latency has marginally improved from 4139ms to 4024ms, but this minor performance gain is overshadowed by the quality regression. This appears to be a significant deployment issue or model update that has fundamentally broken factual accuracy and logical reasoning. Users relying on this model for information retrieval, analysis, or any task requiring factual correctness should exercise extreme caution or consider alternatives until these issues are resolved. The stark contrast between category scores suggests possible data pipeline or model configuration problems rather than intentional changes.

Quality

48.5

Latency p50

4,024 ms

Test runs

✗ Factual capability completely broken✗ Reasoning dropped to 5✓ Creative performance remains strong✓ Multilingual support still perfect

Abschnitt 08

Vollständiges Modellprofil

Gemini 3 Flash Preview: die erste Preview der nächsten Flash-Generation

Hinweis — zukunftsorientiertes Profil. Gemini 3 Flash Preview (gemini-3-flash-preview) ist eine Preview-Momentaufnahme der 3.x-Flash-Generation. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern und haben sich wahrscheinlich bereits in Richtung der 3.1-Flash-Varianten verschoben.

Die erste Preview-Veröffentlichung von Googles Flash-Modell der nächsten Generation. Ein Kontextfenster von 1.048.576 Token. Text-plus-Vision-Eingabe. Das Modell, das die 3.x-Flash-Linie eröffnete, bevor die 3.1-Verfeinerungen eintrafen.

Die Positionierung dieses Snapshots innerhalb der Familie ist spezifisch. Es ist nicht die produktionsstabile Wahl — das ist 2.5 Flash. Es ist auch nicht die aktuellste Preview — diese ist zu den 3.1-Flash-Varianten übergegangen. Für die meisten Workloads ist eine dieser beiden Optionen der bessere Ausgangspunkt. Diese Preview bleibt nützlich für Teams, die sich früh im Lebenszyklus auf 3 Flash Preview festgelegt haben und noch nicht bereit sind, weiter zu migrieren.

Wo dieser Snapshot heute einzuordnen ist

Einige Situationen, in denen der 3 Flash Preview-Snapshot nach wie vor die richtige Wahl ist:

Fixierte Evaluierungen und Benchmarking speziell gegen 3 Flash Preview, bei denen ein stabiler Vergleich über den Lebenszyklus des Snapshots hinweg wichtig ist.
Bestehende Preview-Tier-Deployments, die gegen diese Version validiert wurden und eine Migration zu den 3.1-Flash-Varianten noch nicht gerechtfertigt haben.
Forschungsarbeiten, die explizit die 3.x-Flash-Evolution vergleichen und die früheste Preview als Referenzpunkt benötigen.

Falls keiner dieser Fälle zutrifft, sind die besseren aktuellen Ausgangspunkte 2.5 Flash für produktionsstabiles Verhalten oder eine der 3.1-Flash-Varianten für Preview-Arbeiten der nächsten Generation.

Was es gut macht

Die Stärken der 3.x-Generation zeigen sich hier in ihrer ersten Form:

Schärferes Reasoning als die 2.5-Flash-Generation bei mehrstufigen Aufgaben.
Verbesserte Long-Context-Attention-Qualität in der Tiefe — das 1M-Fenster hält jenseits von 200k Token besser zusammen, als es 2.5 Flash gelang.
Bessere Einhaltung strukturierter Ausgaben bei komplexen Schemas.
Verbesserte Vision-Qualität bei Standard-Dokumentenlesungsaufgaben.
Ablehnungshaltung stärker an die größeren Gemini-Modelle angepasst.

Die Verbesserungen gegenüber 2.5 Flash sind real, aber die 3.1-Flash-Varianten haben sie weiter verfeinert. Für Workloads, die sich noch nicht auf einen 3.x-Flash-Snapshot festgelegt haben, sind die 3.1-Varianten die aktuellere Wahl.

Was es schlecht macht

Es gelten Überlegungen zur Preview-Tier-Ebene. Ratenlimits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit ändern.

Dieser Snapshot stellt die erste Preview der 3.x-Flash-Generation dar. Die 3.1-Varianten beheben Unzulänglichkeiten, die diese Version noch aufweist. Für Workloads, bei denen diese Verfeinerungen wichtig sind, ist die Migration zu einer 3.1-Variante der bessere Weg.

Latenz in der Tiefe des Kontextfensters ist real, wie bei jedem Modell mit einem 1M-Fenster. Für zeitkritische Anwendungen passen möglicherweise kleinere Modelle mit Caching-Strategien besser.

Wo es sich gegenüber dem Wettbewerbsfeld positioniert

Gegenüber 2.5 Flash. Die 3 Flash Preview bietet Verbesserungen bei Reasoning und Long-Context-Attention auf Kosten von Preview-Tier-Verhalten. Für produktionsstabile Deployments bleibt 2.5 Flash die richtige Wahl. Für Preview-Tier-Exploration ist die 3.x-Familie die richtige Wahl.

Gegenüber den 3.1-Flash-Varianten. Die 3.1-Generation verfeinert, was 3 Flash Preview eingeführt hat. Für neue Builds in der 3.x-Familie sind die 3.1-Varianten der aktuellere Ausgangspunkt. Die Migration von 3 Flash Preview zu einer 3.1-Flash-Variante ist ein kleinerer Sprung verglichen mit der Migration von 2.5 Flash.

Gegenüber Wettbewerbern in derselben Kategorie. Claude Sonnet im mittleren Segment, OpenAIs mittlere GPT-5-Varianten. Die Wahl hängt typischerweise eher von der Ökosystem-Passung und spezifischen Workload-Eigenschaften ab als von rohen Fähigkeitsdeltas.

Das Gesamtbild auf Kategorie-Ebene findet sich unter /benchmarks/leaderboard und die Scores pro Kategorie unter /benchmarks/intelligence.

Wo es wirklich nützlich ist

Trotz der Tatsache, dass es sich um einen frühen Preview-Snapshot handelt, passen einige Workloads sauber:

Bestehende Preview-Tier-Deployments, die gegen 3 Flash Preview validiert wurden und eine Migration zu 3.1 noch nicht gerechtfertigt haben.
Fixierte Vergleichsstudien der 3.x-Flash-Evolution.
Workflows, die Last über mehrere Preview-Snapshots verteilen, um Ratenlimits zu managen.

Wo es das falsche Werkzeug ist

Produktions-Workloads, die heute stabiles Verhalten benötigen. Verwenden Sie 2.5 Flash.

Neue Builds in 2026. Beginnen Sie mit einer der 3.1-Flash-Varianten oder 2.5 Flash, abhängig von Ihren Stabilitätsanforderungen.

Workloads, die Top-Tier-Reasoning benötigen. Wechseln Sie zur Pro-Tier — 2.5 Pro für Stabilität, 3.1 Pro Preview für aktuelle Fähigkeiten.

Hochvolumige günstige Klassifizierung. Wechseln Sie zu Flash-Lite für Kosteneffizienz.

Echtzeit-Voice. Keine Audio-Eingabe. Der Voice-Pipeline-Leitfaden unter /usecases/voice behandelt die richtige Architektur.

Migrationspfade

Die direkten Pfade von 3 Flash Preview:

Für aktuelleres Preview-Verhalten mit ähnlichen Fähigkeiten ist eine der 3.1-Flash-Varianten das natürliche Ziel. Das Verhalten ist nahe genug beieinander, dass Validierungsarbeiten typischerweise bescheiden ausfallen.
Für produktionsstabiles Deployment ist 2.5 Flash das konservative Ziel. Rückschritt statt Upgrade.
Für Workloads, die der Flash-Tier vollständig entwachsen sind, decken 2.5 Pro oder 3.1 Pro Preview den Aufstieg ab.

Führen Sie Ihr Evaluierungsset gegen den Kandidaten aus, bevor Sie sich festlegen. Öffentliche Benchmark-Deltas stimmen selten mit dem überein, was Sie bei Ihren spezifischen Prompts sehen, und das gilt doppelt für Preview-zu-Preview-Vergleiche innerhalb derselben Familie.

Deployment-Hinweise

Standard Google Gemini API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich wie erwartet für die Flash-Tier-Fähigkeitsoberfläche.

Die regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind über Enterprise-Verträge verfügbar. Out-of-the-box-Consumer-API-Zugang fixiert keine Region. Für harte Residency-Anforderungen ist die Vertex-AI-Regionaldokumentation die richtige Referenz.

Preview-Tier-Preise sollten nicht die Grundlage für langfristige Kostenmodellierung sein. Die Preisstruktur bei allgemeiner Verfügbarkeit kann von den Preview-Tier-Raten abweichen.

Ratenlimits und Verhaltensstabilität sind die wichtigsten operativen Überlegungen während der Preview. Workloads sollten mit der Möglichkeit von Verhaltensänderungen rechnen und nachgelagerte Verträge gegen die Ausgaben des Modells validieren.

Es auswählen

Greifen Sie zu Gemini 3 Flash Preview, wenn:

Sie ein bestehendes Preview-Tier-Deployment haben, das gegen genau diesen Snapshot validiert wurde.
Sie einen fixierten Snapshot für Forschungs- oder Vergleichszwecke benötigen.
Eine Migration zu einer 3.1-Flash-Variante noch nicht gerechtfertigt ist.

Wählen Sie etwas anderes, wenn:

Sie 2026 von Grund auf neu beginnen. Verwenden Sie 2.5 Flash oder eine der 3.1-Flash-Varianten.
Sie heute produktionsstabiles Verhalten benötigen. Verwenden Sie 2.5 Flash.
Der Workload die Verfeinerungen benötigt, die die 3.1-Generation hinzugefügt hat.
Die Arbeit Audio, Voice oder Video umfasst.

Die Zusammenfassung. Die eröffnende Preview der 3.x-Flash-Generation. Für neue Builds sind die 3.1-Varianten oder das produktionsreife 2.5 Flash normalerweise der bessere Ausgangspunkt. Für bestehende Deployments, die gegen diesen Snapshot validiert wurden, bleibt es eine vernünftige Wahl, bis eine Migration gerechtfertigt ist.

Vergleichen Sie mit 2.5 Flash und den 3.1-Flash-Varianten auf Ihren eigenen Prompts unter /live-test.

Letzte technische Bewertung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

26. Juli 2026 · 05:30 UTC · Benchmark

P50-Latenz

2946 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026