Zum Inhalt
Tier A — Frontier
Läuft in:USErstellt in:United States
Google Gemini

Gemini 2.5 Flash

Tier A — Frontier · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 2.5 Flash ist ein großes Sprachmodell, das von Google im Rahmen der Gemini-Familie von KI-Systemen entwickelt wurde. Es ist für standardmäßige Textgenerierungsaufgaben konzipiert und bietet ein ausgewogenes Verhältnis zwischen Leistung und Effizienz, das für ein breites Spektrum an Anwendungen der natürlichen Sprachverarbeitung geeignet ist. Das Modell bewältigt Aufgaben wie Fragebeantwortung, Zusammenfassung, kreatives Schreiben, Codegenerierung und allgemeine dialogbasierte Interaktionen. Ein zentrales technisches Merkmal von Gemini 2.5 Flash ist sein außergewöhnlich großes Kontextfenster von 1.048.576 Tokens (etwa 1 Million Tokens). Diese erweiterte Kontextkapazität ermöglicht es dem Modell, sehr lange Dokumente, umfangreiche Gespräche oder große Codebasen innerhalb eines einzigen Prompts zu verarbeiten und dabei kohärent zu bleiben. Dadurch eignet es sich besonders für Anwendungen, die die Analyse umfangreicher Materialien oder die Aufrechterhaltung des Kontexts über längere Interaktionen hinweg erfordern. Innerhalb der Gemini-Reihe von Google ist die 2.5 Flash-Variante als schnellere, ressourceneffizientere Option im Vergleich zu größeren Modellen wie Gemini Pro oder Ultra positioniert, behält dabei jedoch eine starke Leistung bei allgemeinen Sprachaufgaben bei. Die Bezeichnung „Flash" deutet auf eine Optimierung für Geschwindigkeit und geringere Latenz hin, was sie für Anwendungen geeignet macht, bei denen die Reaktionszeit wichtig ist. Sie stellt eine Weiterentwicklung der Gemini 2.0-Architektur dar, mit Verbesserungen sowohl bei der Leistungsfähigkeit als auch bei der Effizienz, und richtet sich an Entwickler und Organisationen, die eine leistungsfähige Sprachmodell-Performance suchen, ohne den Rechenaufwand der größten verfügbaren Modelle in Kauf nehmen zu müssen.

Gemini 2.5 Flash: Ein-Million-Token-Kontext kombiniert mit Flash-Geschwindigkeit – für Anwendungen, die schnell und weit lesen müssen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
352161728814146541005-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

35
Codegenerierung
19
Mehrsprachig
28
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 2.5 Flash
$0.3000 pro 1M Input-Tokens
$2.50 pro 1M Output-Tokens
≈ $0.0007 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.3000
pro 1M Output-Tokens$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

▲ +275% since first

$2.50

output / 1M

▲ +733% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)159 / avg 335
56251

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Flash-Geschwindigkeit bei Antwortzeiten1-Million-Token-KontextfensterAllgemeine Sprachaufgaben aller ArtZusammenfassung langer DokumenteIterative GesprächsverläufeMehrsprachige Texterzeugung

Schwächen

Weniger Tiefe als Pro/Ultra-VariantenKomplexes Multi-Hop-Reasoning begrenztKein nativer Audio-Output
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Abschnitt 07

Häufig gestellte Fragen

Flash-Modelle sind für niedrige Latenz und hohen Durchsatz optimiert und eignen sich besonders für Anwendungen, wo schnelle Antworten wichtiger sind als maximale Reasoning-Tiefe.

Im Spannungsfeld zwischen Geschwindigkeit und Kontexttiefe setzt Gemini 2.5 Flash einen neuen Standard für effiziente Großkontext-Verarbeitung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=36

Letzte 30 Tage

100.0%

n=36

Mediane Antwortzeit

3,597ms

n=36

Basierend auf 101 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

36

OK-Antworten (30d)

36

Gesamte Aufrufe (7d)

36

OK-Antworten (7d)

36

Bildqualitäts-Pilot (2026-06-10)

Recall

36.9%

n=300

Fehlalarmrate

7.9%

n=300

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-538/100 · 76 runs
16 correct9 partial51 wrong21% accuracy
2026-06-14

Major quality decline with 26-point drop across most categories

Gemini 2.5 Flash experienced a significant performance degradation in the current benchmark window, with overall quality falling from 53.6 to 27.2 points. This 26.4-point decline represents nearly a 50% reduction in measured capability. The coding category shows mixed signals, rising from 15 to 35 points, suggesting some improvement in technical task handling. However, this gain is overshadowed by severe regressions elsewhere. Multilingual performance dropped dramatically from 40 to 19 points, indicating substantial difficulties with non-English language tasks. Reasoning capabilities declined from unmeasured in the previous window to a measured score of 28 points. Most notably, creative tasks which previously scored a perfect 100 are no longer being measured, along with factual tasks that previously scored 60 points. The absence of these category measurements in the current window makes direct comparison challenging but suggests potential shifts in model focus or capability boundaries. Latency remained relatively stable at 3888ms compared to the previous 3957ms, showing consistent response times despite the quality changes. Users should expect notably reduced performance across language understanding and general task quality compared to the previous version.

Quality

27.2

Latency p50

3,888 ms

Test runs

5

Quality dropped 26 points Multilingual score halved Coding improved from 15 to 35 Latency remained stable
Abschnitt 10

Vollständiges Modellprofil

Gemini 2.5 Flash — illustration 1
Gemini 2.5 Flash: das bewährte Arbeitstier der Gemini-Linie

Gemini 2.5 Flash (gemini-2.5-flash) ist das Modell, auf dem die meisten Produktions-Gemini-Deployments in der zweiten Hälfte von 2025 und bis 2026 liefen. Ein Kontextfenster von 1.048.576 Token. Text- und Vision-Eingabe. Native multimodale Verarbeitung, die direkt mit dem Anthropic-Mid-Tier und OpenAIs kleineren GPT-5-Varianten konkurriert.

Wer 2025 mit einem Google-Solutions-Team über „das richtige Gemini für den Produktionseinsatz in großem Maßstab" gesprochen hat, wurde auf dieses Modell hingewiesen. Es ist das Arbeitstier der Familie, und es hat diese Positionierung verdient.

Warum dieser Snapshot sich durchgesetzt hat

Mehrere Dinge trafen in 2.5 Flash gleichzeitig ein, die es zum Standard-Upgrade-Ziel für Teams machten, die 2.0 Flash liefen:

  • Schärferes Reasoning als die 2.0-Generation, insbesondere bei mehrstufigen Extraktions- und strukturierten Ausgabe-Workloads, bei denen 2.0 Flash manchmal streckte.
  • Sauberere JSON-Schema-Einhaltung. Komplexe verschachtelte Schemas werden zuverlässig behandelt, ohne den gelegentlichen Feldnamen-Drift früherer Flash-Snapshots.
  • Bessere Long-Context-Aufmerksamkeitsqualität in der Tiefe. Das 1M-Fenster ist für Syntheseaufgaben jenseits von 200k Token nützlicher als in der 2.0-Generation.
  • Schnellere Time-to-First-Token bei kurzen Prompts. Das Flash-Branding hatte beim Launch seine Berechtigung, und 2.5 behält das Latenzprofil.
  • Stärkere Vision-Qualität bei Dokumenten, Diagrammen und Abbildungen.

Keines davon ist einzeln dramatisch. Zusammen machten sie die Migrationskostenrechnung von 2.0 Flash leicht genug, dass die meisten Teams gewechselt sind.

Was das 1M-Kontextfenster wirklich bringt

Eine Million Token reichen für eine umfangreiche Codebasis, einen langen Quartalsbericht oder einen Multi-Dokument-Workload. Die Marketing-Aussage ist real. Die praktische Frage ist die, die auf jedes Long-Context-Modell zutrifft: hält die Aufmerksamkeit über den Puffer stand, oder verliert das Modell den Anfang, wenn das Ende voll ist.

Gemini 2.5 Flash hält die Aufmerksamkeit vernünftig über das gesamte Fenster. Die Nadel-Retrieval-Qualität bleibt weit über die 200k-Marke hinaus akzeptabel, wo die 2.0-Generation zu verblassen begann. Jenseits von etwa 600.000 Token dehnt sich die Latenz merklich aus. Das aktuelle Geschwindigkeits-Bild finden Sie auf /benchmarks/speed.

Zwei praktische Konsequenzen: Erstens ist das lange Fenster für Aufgaben wie vollständige Dokumentenanalyse, dokumentübergreifende Sorgfaltsprüfung und langen Konversations-Thread-State nutzbar — keine bloße Spezifikationszahl. Zweitens ist Prompt-Caching das richtige Muster für wiederholte Abfragen gegen dasselbe große Korpus. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig.

Vision-Eingabe, die ernsthaft konkurriert

Die 2.5-Generation hat die Vision-Qualitätslücke geschlossen, die Gemini Flash durch frühere Snapshots getragen hatte. Dokument-Screenshots, gescannte PDFs als Seitenbilder, Dashboard-Aufnahmen, Diagramme. Tabellenextraktion ist sauber. Diagramme mit vernünftigen Beschriftungsgrößen werden korrekt beschrieben, einschließlich Achseneinheiten und ungefährer Größenordnungen.

Handgeschriebener Text ist noch die Schwachstelle. Ebenso sehr dichte wissenschaftliche Abbildungen. Alles, bei dem ein Mensch hineinzoomen würde, profitiert von einem Verifikationsschritt. Für die meisten Produktions-Dokumentenlese-Workloads liegt 2.5 Flash in einem Band, bei dem man der Ausgabe vertrauen kann, ohne zu einem Pro-Tier-Modell eskalieren zu müssen.

Einordnung in die Modelllandschaft

Das ehrliche Wettbewerbsbild für Gemini 2.5 Flash Mitte 2026:

Gegenüber Anthropic-Mid-Tier: Claude Sonnet 4.5 gewinnt bei europäischsprachiger Verwaltungsprosa und Konsistenz der Ablehnungshaltung bei strukturierter Ausgabe. Gemini 2.5 Flash gewinnt bei reiner Geschwindigkeit bei kurzen Prompts und darin, dass das 1M-Fenster jenseits der 200k-Marke nutzbar ist, wo Sonnet 4.5 verblasst. Claude Haiku 4.5 konkurriert bei einfacheren Aufgaben beim Preis pro Aufruf.

Gegenüber OpenAI-Mid-Tier: GPT-5-Mid-Tier-Varianten konkurrieren bei reiner Geschwindigkeit und Code-Generierungsqualität. 2.5 Flash gewinnt bei Multimodalität über Bilder hinaus — native Audio- und Video-Verständnisfähigkeit ist in der Gemini-Familie stärker.

Gegenüber dem Rest der Gemini-Linie: Gemini 2.5 Pro ist der Aufstieg für reasoning-lastige Arbeit. Die 3.x-Flash-Previews sind der Aufstieg für die neuesten Fähigkeiten, mit den üblichen Preview-Vorbehalten zu Ratenlimits und Verhaltenstabilität.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und die Kategorie-Scores auf /benchmarks/intelligence.

Wann es das falsche Werkzeug ist

Top-of-Stack-Reasoning. Für Aufgaben, die tiefes mehrstufiges Reasoning erfordern, zu Gemini 2.5 Pro oder 3 Pro Preview wechseln.

Ultra-kostensensitive Batch-Jobs bei massivem Volumen. Gemini 2.5 Flash-Lite ist die günstigere Stufe für Workloads, bei denen Kosten jede andere Überlegung dominieren.

Echtzeit-Sprache mit niedriger Latenz von Anfang bis Ende. Für Voice-in-Voice-out-Architekturen die audio-nativen Modelle in der Familie ansehen. Den Voice-Pipeline-Leitfaden auf /usecases/voice konsultieren.

Code-Generierung unter sich schnell entwickelnden Frameworks, bei der idiomatischer Output gewünscht ist. 2.5 Flash ist kompetent, aber nicht spezialisiert. Die Modellübersicht auf /usecases/code deckt die Alternativen ab.

Self-Hosted-Deployment oder Fine-Tuning über Standard-Adapter-Tuning hinaus. Google liefert keine Gemini-Gewichte. Für Workloads, die On-Premise-Deployment brauchen, ist die Open-Weight-Übersicht auf /usecases/local der richtige Ausgangspunkt.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich erwartungsgemäß. Das Modell ist gut instrumentiert und integriert sich sauber mit dem breiteren Vertex-AI-Tooling für Monitoring und Logging.

Regionale Verfügbarkeit folgt Googles Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen ist die regionale Vertex-AI-Dokumentation die richtige Referenz.

Preise sind wettbewerbsfähig mit den Anthropic- und OpenAI-Mid-Tier-Optionen. Für hochvolumige Workloads ist der Preis pro Aufruf einer von mehreren Faktoren — Latenz, Kontextfenster und Qualität bei spezifischen Prompts sind wichtiger als der Schlagzeilen-Tarif.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Flash, wenn:

  • Sie ein starkes Mid-Tier-Modell mit einem nutzbaren Million-Token-Kontextfenster wollen.
  • Der Workload Vision-Eingabe bei Dokumenten, Diagrammen oder Abbildungen umfasst.
  • Latenz bei kurzen Prompts genauso wichtig ist wie Qualität bei langen.
  • Sie bereits auf Googles Stack sind oder Multi-Cloud-Flexibilität haben.

Wählen Sie etwas anderes, wenn:

  • Der Workload Top-of-Stack-Reasoning braucht. Zu 2.5 Pro oder 3 Pro Preview wechseln.
  • Kosten pro Aufruf dominieren und die Qualitätsabnahme zu Flash-Lite akzeptabel ist.
  • Konsistente Ablehnungshaltung im Anthropic-Stil benötigt wird. Claude passt besser.
  • Die Arbeit audio-nativ oder video-nativ ist. Die modalitätsspezifischen Modelle ansehen.

Zusammenfassung: Gemini 2.5 Flash ist die langweilige, richtige Standardwahl für Produktions-Gemini-Deployments. Die neueren 3.x-Previews sind am führenden Rand möglicherweise fähiger, aber für Stabilität, Ratenlimits und gut verstandenes Verhalten ist 2.5 Flash der richtige Ausgangspunkt für die meisten Teams.

Testen Sie es gegen Alternativen mit eigenen Prompts unter /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash — illustration 2
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
1258 ms
P95-Latenz
1363 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026