Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
Google Gemini

Gemini 3 Flash Preview

Tier C — Spezialist · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 3 Flash Preview ist ein großes Sprachmodell, das von Google im Rahmen der Gemini-Modellfamilie entwickelt wurde. Es ist für Standardaufgaben der Textgenerierung konzipiert und bietet Entwicklern sowie Forschenden Zugang zu fortschrittlichen Funktionen der natürlichen Sprachverarbeitung. Diese Preview-Version ermöglicht einen frühzeitigen Zugriff auf die Eigenschaften und Leistungsmerkmale der Flash-Variante vor der allgemeinen Verfügbarkeit. Das Modell verfügt über ein umfangreiches Kontextfenster von 1.048.576 Tokens (1M Tokens), wodurch es sehr lange Dokumente, ausgedehnte Konversationen oder große Codebasen verarbeiten und kohärent halten kann. Diese beachtliche Kontextkapazität macht es besonders geeignet für Anwendungen, die die Analyse umfangreicher Materialien, komplexer mehrstufiger Dialoge oder Aufgaben erfordern, die von einem Zugriff auf umfangreiche Referenzinformationen innerhalb eines einzigen Prompts profitieren. Innerhalb der Gemini-Reihe von Google ist die Flash-Variante als leistungsoptimierte Option positioniert, die Leistungsfähigkeit und Effizienz in Einklang bringt. Während sie eine starke Sprachverständnis- und Generierungsfähigkeit beibehält, sind Flash-Modelle im Vergleich zu ihren Ultra-Pendants auf schnellere Antwortzeiten ausgelegt, was sie für Anwendungen geeignet macht, bei denen Latenz eine Rolle spielt. Die Preview-Kennzeichnung weist darauf hin, dass es sich um eine Vorabversion handelt, die Nutzern die Bewertung der Modellfähigkeiten und das Geben von Feedback während des Entwicklungszyklus ermöglicht. Zu den Standardfunktionen der Textgenerierung zählen Aufgaben wie Zusammenfassung, Beantwortung von Fragen, Erstellung von Inhalten, Codegenerierung und dialogorientierte Interaktionen.

Gemini 3 Flash Preview: 1 Million Tokens Kontext im Flash-Tempo – ein früher Einblick in Googles nächste Modellgeneration.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz14 runs
5337429501159136705-2705-31ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

87
Codegenerierung
98
Mehrsprachig
98
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 3 Flash Preview
$0.5000 pro 1M Input-Tokens
$3.00 pro 1M Output-Tokens
≈ $0.0009 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.5000
pro 1M Output-Tokens$3.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$3.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)337 / avg 246
371156

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1-Million-Token-KontextfensterFlash-optimierte GeschwindigkeitZugang zur Gemini-3-GenerationStandardsprachaufgaben aller ArtGoogle AI Platform IntegrationMehrsprachige Fähigkeiten

Schwächen

Preview – kein GA-StatusTiefes Reasoning eingeschränktFunktionen können sich ändern
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Abschnitt 07

Häufig gestellte Fragen

Es bietet frühen Zugang zur Gemini-3-Architektur mit dem bekannten Flash-Geschwindigkeitsprofil und massivem Kontextfenster.

Für Entwickler, die Googles Flash-Leistung mit extremer Kontexttiefe früh testen wollen, ist diese Preview ein wertvolles Werkzeug.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-576/100 · 74 runs
50 correct12 partial12 wrong68% accuracy
2026-06-14

Major capability expansion with tools, vision, and reasoning support added

Gemini 3 Flash Preview has undergone a significant transformation with the addition of eight new capabilities including tools, vision, JSON mode, PDF input, reasoning, JSON schema, parallel tools, and prompt caching. This represents a fundamental expansion from a text-only model to a multimodal platform with extensive integration options. The addition of tool calling and parallel tool execution enables sophisticated agent workflows, while vision and PDF input support broaden the range of input types the model can process. JSON schema support and JSON mode provide structured output capabilities essential for application integration. The reasoning capability suggests enhanced analytical performance, though benchmark scores are not available in the current window to quantify improvements. Prompt caching should improve efficiency for repetitive tasks. These additions position the model as a comprehensive solution for developers building complex applications that require multiple modalities and integration patterns. Users should note that while the capability set has dramatically expanded, performance metrics for the new benchmark window are pending, making it difficult to assess quality relative to the previous window where scores showed balanced improvements across categories.

Quality

Latency p50

Test runs

0

Eight new capabilities added Tool calling and vision support Multimodal input processing enabled Structured output via JSON schema
Abschnitt 10

Vollständiges Modellprofil

Gemini 3 Flash Preview — illustration 1
Gemini 3 Flash Preview: die erste Preview der nächsten Flash-Generation

Hinweis — zukunftsorientiertes Profil. Gemini 3 Flash Preview (gemini-3-flash-preview) ist eine Preview-Momentaufnahme der 3.x-Flash-Generation. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern und haben sich wahrscheinlich bereits in Richtung der 3.1-Flash-Varianten verschoben.

Die erste Preview-Veröffentlichung von Googles Flash-Modell der nächsten Generation. Ein Kontextfenster von 1.048.576 Token. Text-plus-Vision-Eingabe. Das Modell, das die 3.x-Flash-Linie eröffnete, bevor die 3.1-Verfeinerungen eintrafen.

Die Positionierung dieses Snapshots innerhalb der Familie ist spezifisch. Es ist nicht die produktionsstabile Wahl — das ist 2.5 Flash. Es ist auch nicht die aktuellste Preview — diese ist zu den 3.1-Flash-Varianten übergegangen. Für die meisten Workloads ist eine dieser beiden Optionen der bessere Ausgangspunkt. Diese Preview bleibt nützlich für Teams, die sich früh im Lebenszyklus auf 3 Flash Preview festgelegt haben und noch nicht bereit sind, weiter zu migrieren.

Wo dieser Snapshot heute einzuordnen ist

Einige Situationen, in denen der 3 Flash Preview-Snapshot nach wie vor die richtige Wahl ist:

  • Fixierte Evaluierungen und Benchmarking speziell gegen 3 Flash Preview, bei denen ein stabiler Vergleich über den Lebenszyklus des Snapshots hinweg wichtig ist.
  • Bestehende Preview-Tier-Deployments, die gegen diese Version validiert wurden und eine Migration zu den 3.1-Flash-Varianten noch nicht gerechtfertigt haben.
  • Forschungsarbeiten, die explizit die 3.x-Flash-Evolution vergleichen und die früheste Preview als Referenzpunkt benötigen.

Falls keiner dieser Fälle zutrifft, sind die besseren aktuellen Ausgangspunkte 2.5 Flash für produktionsstabiles Verhalten oder eine der 3.1-Flash-Varianten für Preview-Arbeiten der nächsten Generation.

Was es gut macht

Die Stärken der 3.x-Generation zeigen sich hier in ihrer ersten Form:

  • Schärferes Reasoning als die 2.5-Flash-Generation bei mehrstufigen Aufgaben.
  • Verbesserte Long-Context-Attention-Qualität in der Tiefe — das 1M-Fenster hält jenseits von 200k Token besser zusammen, als es 2.5 Flash gelang.
  • Bessere Einhaltung strukturierter Ausgaben bei komplexen Schemas.
  • Verbesserte Vision-Qualität bei Standard-Dokumentenlesungsaufgaben.
  • Ablehnungshaltung stärker an die größeren Gemini-Modelle angepasst.

Die Verbesserungen gegenüber 2.5 Flash sind real, aber die 3.1-Flash-Varianten haben sie weiter verfeinert. Für Workloads, die sich noch nicht auf einen 3.x-Flash-Snapshot festgelegt haben, sind die 3.1-Varianten die aktuellere Wahl.

Was es schlecht macht

Es gelten Überlegungen zur Preview-Tier-Ebene. Ratenlimits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit ändern.

Dieser Snapshot stellt die erste Preview der 3.x-Flash-Generation dar. Die 3.1-Varianten beheben Unzulänglichkeiten, die diese Version noch aufweist. Für Workloads, bei denen diese Verfeinerungen wichtig sind, ist die Migration zu einer 3.1-Variante der bessere Weg.

Latenz in der Tiefe des Kontextfensters ist real, wie bei jedem Modell mit einem 1M-Fenster. Für zeitkritische Anwendungen passen möglicherweise kleinere Modelle mit Caching-Strategien besser.

Wo es sich gegenüber dem Wettbewerbsfeld positioniert

Gegenüber 2.5 Flash. Die 3 Flash Preview bietet Verbesserungen bei Reasoning und Long-Context-Attention auf Kosten von Preview-Tier-Verhalten. Für produktionsstabile Deployments bleibt 2.5 Flash die richtige Wahl. Für Preview-Tier-Exploration ist die 3.x-Familie die richtige Wahl.

Gegenüber den 3.1-Flash-Varianten. Die 3.1-Generation verfeinert, was 3 Flash Preview eingeführt hat. Für neue Builds in der 3.x-Familie sind die 3.1-Varianten der aktuellere Ausgangspunkt. Die Migration von 3 Flash Preview zu einer 3.1-Flash-Variante ist ein kleinerer Sprung verglichen mit der Migration von 2.5 Flash.

Gegenüber Wettbewerbern in derselben Kategorie. Claude Sonnet im mittleren Segment, OpenAIs mittlere GPT-5-Varianten. Die Wahl hängt typischerweise eher von der Ökosystem-Passung und spezifischen Workload-Eigenschaften ab als von rohen Fähigkeitsdeltas.

Das Gesamtbild auf Kategorie-Ebene findet sich unter /benchmarks/leaderboard und die Scores pro Kategorie unter /benchmarks/intelligence.

Wo es wirklich nützlich ist

Trotz der Tatsache, dass es sich um einen frühen Preview-Snapshot handelt, passen einige Workloads sauber:

  • Bestehende Preview-Tier-Deployments, die gegen 3 Flash Preview validiert wurden und eine Migration zu 3.1 noch nicht gerechtfertigt haben.
  • Fixierte Vergleichsstudien der 3.x-Flash-Evolution.
  • Workflows, die Last über mehrere Preview-Snapshots verteilen, um Ratenlimits zu managen.

Wo es das falsche Werkzeug ist

Produktions-Workloads, die heute stabiles Verhalten benötigen. Verwenden Sie 2.5 Flash.

Neue Builds in 2026. Beginnen Sie mit einer der 3.1-Flash-Varianten oder 2.5 Flash, abhängig von Ihren Stabilitätsanforderungen.

Workloads, die Top-Tier-Reasoning benötigen. Wechseln Sie zur Pro-Tier — 2.5 Pro für Stabilität, 3.1 Pro Preview für aktuelle Fähigkeiten.

Hochvolumige günstige Klassifizierung. Wechseln Sie zu Flash-Lite für Kosteneffizienz.

Echtzeit-Voice. Keine Audio-Eingabe. Der Voice-Pipeline-Leitfaden unter /usecases/voice behandelt die richtige Architektur.

Migrationspfade

Die direkten Pfade von 3 Flash Preview:

  • Für aktuelleres Preview-Verhalten mit ähnlichen Fähigkeiten ist eine der 3.1-Flash-Varianten das natürliche Ziel. Das Verhalten ist nahe genug beieinander, dass Validierungsarbeiten typischerweise bescheiden ausfallen.
  • Für produktionsstabiles Deployment ist 2.5 Flash das konservative Ziel. Rückschritt statt Upgrade.
  • Für Workloads, die der Flash-Tier vollständig entwachsen sind, decken 2.5 Pro oder 3.1 Pro Preview den Aufstieg ab.

Führen Sie Ihr Evaluierungsset gegen den Kandidaten aus, bevor Sie sich festlegen. Öffentliche Benchmark-Deltas stimmen selten mit dem überein, was Sie bei Ihren spezifischen Prompts sehen, und das gilt doppelt für Preview-zu-Preview-Vergleiche innerhalb derselben Familie.

Deployment-Hinweise

Standard Google Gemini API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich wie erwartet für die Flash-Tier-Fähigkeitsoberfläche.

Die regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind über Enterprise-Verträge verfügbar. Out-of-the-box-Consumer-API-Zugang fixiert keine Region. Für harte Residency-Anforderungen ist die Vertex-AI-Regionaldokumentation die richtige Referenz.

Preview-Tier-Preise sollten nicht die Grundlage für langfristige Kostenmodellierung sein. Die Preisstruktur bei allgemeiner Verfügbarkeit kann von den Preview-Tier-Raten abweichen.

Ratenlimits und Verhaltensstabilität sind die wichtigsten operativen Überlegungen während der Preview. Workloads sollten mit der Möglichkeit von Verhaltensänderungen rechnen und nachgelagerte Verträge gegen die Ausgaben des Modells validieren.

Es auswählen

Greifen Sie zu Gemini 3 Flash Preview, wenn:

  • Sie ein bestehendes Preview-Tier-Deployment haben, das gegen genau diesen Snapshot validiert wurde.
  • Sie einen fixierten Snapshot für Forschungs- oder Vergleichszwecke benötigen.
  • Eine Migration zu einer 3.1-Flash-Variante noch nicht gerechtfertigt ist.

Wählen Sie etwas anderes, wenn:

  • Sie 2026 von Grund auf neu beginnen. Verwenden Sie 2.5 Flash oder eine der 3.1-Flash-Varianten.
  • Sie heute produktionsstabiles Verhalten benötigen. Verwenden Sie 2.5 Flash.
  • Der Workload die Verfeinerungen benötigt, die die 3.1-Generation hinzugefügt hat.
  • Die Arbeit Audio, Voice oder Video umfasst.

Die Zusammenfassung. Die eröffnende Preview der 3.x-Flash-Generation. Für neue Builds sind die 3.1-Varianten oder das produktionsreife 2.5 Flash normalerweise der bessere Ausgangspunkt. Für bestehende Deployments, die gegen diesen Snapshot validiert wurden, bleibt es eine vernünftige Wahl, bis eine Migration gerechtfertigt ist.

Vergleichen Sie mit 2.5 Flash und den 3.1-Flash-Varianten auf Ihren eigenen Prompts unter /live-test.

Letzte technische Bewertung: 2026-05-22 — Tokonomix.ai

Gemini 3 Flash Preview — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:58 UTC · Benchmark
P50-Latenz
2780 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026