Wie groß ist das Kontextfenster?

Rund 1 Million Tokens – deutlich mehr als die meisten zeitgenössischen Modelle, ideal für sehr lange Dokumente und ausgedehnte Gesprächsverläufe.

Ist Gemini 2.5 Flash eine Weiterentwicklung von 2.0 Flash?

Ja, 2.5 Flash baut auf der Gemini-2.0-Architektur auf und verbessert sowohl Fähigkeiten als auch Effizienz.

Für welche Produkte eignet sich Gemini 2.5 Flash?

Latenzempfindliche Apps, Dokumentenanalyse, Codegeneration und Gesprächs-KI, wo schnelle Antwortzeiten entscheidend sind.

Tier A — Frontier

Läuft in:USErstellt in:United States

Google Gemini

Gemini 2.5 Flash

Tier A — Frontier · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Gemini 2.5 Flash ist ein großes Sprachmodell, das von Google im Rahmen der Gemini-Familie von KI-Systemen entwickelt wurde. Es ist für standardmäßige Textgenerierungsaufgaben konzipiert und bietet ein ausgewogenes Verhältnis zwischen Leistung und Effizienz, das für ein breites Spektrum an Anwendungen der natürlichen Sprachverarbeitung geeignet ist. Das Modell bewältigt Aufgaben wie Fragebeantwortung, Zusammenfassung, kreatives Schreiben, Codegenerierung und allgemeine dialogbasierte Interaktionen. Ein zentrales technisches Merkmal von Gemini 2.5 Flash ist sein außergewöhnlich großes Kontextfenster von 1.048.576 Tokens (etwa 1 Million Tokens). Diese erweiterte Kontextkapazität ermöglicht es dem Modell, sehr lange Dokumente, umfangreiche Gespräche oder große Codebasen innerhalb eines einzigen Prompts zu verarbeiten und dabei kohärent zu bleiben. Dadurch eignet es sich besonders für Anwendungen, die die Analyse umfangreicher Materialien oder die Aufrechterhaltung des Kontexts über längere Interaktionen hinweg erfordern. Innerhalb der Gemini-Reihe von Google ist die 2.5 Flash-Variante als schnellere, ressourceneffizientere Option im Vergleich zu größeren Modellen wie Gemini Pro oder Ultra positioniert, behält dabei jedoch eine starke Leistung bei allgemeinen Sprachaufgaben bei. Die Bezeichnung „Flash" deutet auf eine Optimierung für Geschwindigkeit und geringere Latenz hin, was sie für Anwendungen geeignet macht, bei denen die Reaktionszeit wichtig ist. Sie stellt eine Weiterentwicklung der Gemini 2.0-Architektur dar, mit Verbesserungen sowohl bei der Leistungsfähigkeit als auch bei der Effizienz, und richtet sich an Entwickler und Organisationen, die eine leistungsfähige Sprachmodell-Performance suchen, ohne den Rechenaufwand der größten verfügbaren Modelle in Kauf nehmen zu müssen.

Gemini 2.5 Flash mit eigenen Fragen testen

Gemini 2.5 Flash: Ein-Million-Token-Kontext kombiniert mit Flash-Geschwindigkeit – für Anwendungen, die schnell und weit lesen müssen.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 2.5 Flash

$0.3000 pro 1M Input-Tokens

$2.50 pro 1M Output-Tokens

≈ $0.0007 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.3000

pro 1M Output-Tokens$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— stable

$2.50

output / 1M

— stable

2026-05-242026-06-212026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)279 / avg 364

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Flash-Geschwindigkeit bei Antwortzeiten1-Million-Token-KontextfensterAllgemeine Sprachaufgaben aller ArtZusammenfassung langer DokumenteIterative GesprächsverläufeMehrsprachige Texterzeugung

Schwächen

Weniger Tiefe als Pro/Ultra-VariantenKomplexes Multi-Hop-Reasoning begrenztKein nativer Audio-Output

Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535

Abschnitt 07

Häufig gestellte Fragen

Flash-Modelle sind für niedrige Latenz und hohen Durchsatz optimiert und eignen sich besonders für Anwendungen, wo schnelle Antworten wichtiger sind als maximale Reasoning-Tiefe.

Im Spannungsfeld zwischen Geschwindigkeit und Kontexttiefe setzt Gemini 2.5 Flash einen neuen Standard für effiziente Großkontext-Verarbeitung.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=48

Letzte 30 Tage

98.3%

n=236

Mediane Antwortzeit

4,190ms

n=232

Basierend auf 613 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

236

OK-Antworten (30d)

232

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Bildqualitäts-Pilot (2026-06-10)

Recall

36.9%

n=300

Fehlalarmrate

7.9%

n=300

Vollständige Ergebnisse →

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-539/100 · 116 runs

23 correct16 partial77 wrong20% accuracy

● 2026-07-26

Comprehensive multimodal model with expanded tooling and reasoning support

Gemini 2.5 Flash demonstrates significant capability expansion with the addition of multiple features including tool usage, vision processing, PDF input handling, and reasoning capabilities. The model now supports both standard and parallel tool execution, JSON mode with schema validation, and prompt caching for efficiency. These additions position it as a fully-featured multimodal model suitable for complex workflows requiring multiple interaction modes. The vision capability enables image understanding tasks, while PDF input support allows direct document processing without preprocessing. JSON schema enforcement provides structured output reliability for integration scenarios. The reasoning feature suggests enhanced logical processing capabilities. Tool support, both individual and parallel, enables the model to interact with external systems and APIs effectively. Prompt caching can reduce latency and costs for repeated context usage. Users gain access to a versatile model that handles diverse input types and output formats while maintaining integration flexibility through its comprehensive tooling support. The combination of these capabilities makes it suitable for applications ranging from document analysis to multi-step reasoning tasks with external tool integration.

Quality

—

Latency p50

—

Test runs

✓ Added tool and vision support✓ PDF input and reasoning enabled✓ JSON schema validation available✓ Prompt caching now supported

Abschnitt 10

Vollständiges Modellprofil

Gemini 2.5 Flash: das bewährte Arbeitstier der Gemini-Linie

Gemini 2.5 Flash (gemini-2.5-flash) ist das Modell, auf dem die meisten Produktions-Gemini-Deployments in der zweiten Hälfte von 2025 und bis 2026 liefen. Ein Kontextfenster von 1.048.576 Token. Text- und Vision-Eingabe. Native multimodale Verarbeitung, die direkt mit dem Anthropic-Mid-Tier und OpenAIs kleineren GPT-5-Varianten konkurriert.

Wer 2025 mit einem Google-Solutions-Team über „das richtige Gemini für den Produktionseinsatz in großem Maßstab" gesprochen hat, wurde auf dieses Modell hingewiesen. Es ist das Arbeitstier der Familie, und es hat diese Positionierung verdient.

Warum dieser Snapshot sich durchgesetzt hat

Mehrere Dinge trafen in 2.5 Flash gleichzeitig ein, die es zum Standard-Upgrade-Ziel für Teams machten, die 2.0 Flash liefen:

Schärferes Reasoning als die 2.0-Generation, insbesondere bei mehrstufigen Extraktions- und strukturierten Ausgabe-Workloads, bei denen 2.0 Flash manchmal streckte.
Sauberere JSON-Schema-Einhaltung. Komplexe verschachtelte Schemas werden zuverlässig behandelt, ohne den gelegentlichen Feldnamen-Drift früherer Flash-Snapshots.
Bessere Long-Context-Aufmerksamkeitsqualität in der Tiefe. Das 1M-Fenster ist für Syntheseaufgaben jenseits von 200k Token nützlicher als in der 2.0-Generation.
Schnellere Time-to-First-Token bei kurzen Prompts. Das Flash-Branding hatte beim Launch seine Berechtigung, und 2.5 behält das Latenzprofil.
Stärkere Vision-Qualität bei Dokumenten, Diagrammen und Abbildungen.

Keines davon ist einzeln dramatisch. Zusammen machten sie die Migrationskostenrechnung von 2.0 Flash leicht genug, dass die meisten Teams gewechselt sind.

Was das 1M-Kontextfenster wirklich bringt

Eine Million Token reichen für eine umfangreiche Codebasis, einen langen Quartalsbericht oder einen Multi-Dokument-Workload. Die Marketing-Aussage ist real. Die praktische Frage ist die, die auf jedes Long-Context-Modell zutrifft: hält die Aufmerksamkeit über den Puffer stand, oder verliert das Modell den Anfang, wenn das Ende voll ist.

Gemini 2.5 Flash hält die Aufmerksamkeit vernünftig über das gesamte Fenster. Die Nadel-Retrieval-Qualität bleibt weit über die 200k-Marke hinaus akzeptabel, wo die 2.0-Generation zu verblassen begann. Jenseits von etwa 600.000 Token dehnt sich die Latenz merklich aus. Das aktuelle Geschwindigkeits-Bild finden Sie auf /benchmarks/speed.

Zwei praktische Konsequenzen: Erstens ist das lange Fenster für Aufgaben wie vollständige Dokumentenanalyse, dokumentübergreifende Sorgfaltsprüfung und langen Konversations-Thread-State nutzbar — keine bloße Spezifikationszahl. Zweitens ist Prompt-Caching das richtige Muster für wiederholte Abfragen gegen dasselbe große Korpus. 800.000 Token Kontext bei jedem Aufruf neu zu laden ist zeitaufwendig.

Vision-Eingabe, die ernsthaft konkurriert

Die 2.5-Generation hat die Vision-Qualitätslücke geschlossen, die Gemini Flash durch frühere Snapshots getragen hatte. Dokument-Screenshots, gescannte PDFs als Seitenbilder, Dashboard-Aufnahmen, Diagramme. Tabellenextraktion ist sauber. Diagramme mit vernünftigen Beschriftungsgrößen werden korrekt beschrieben, einschließlich Achseneinheiten und ungefährer Größenordnungen.

Handgeschriebener Text ist noch die Schwachstelle. Ebenso sehr dichte wissenschaftliche Abbildungen. Alles, bei dem ein Mensch hineinzoomen würde, profitiert von einem Verifikationsschritt. Für die meisten Produktions-Dokumentenlese-Workloads liegt 2.5 Flash in einem Band, bei dem man der Ausgabe vertrauen kann, ohne zu einem Pro-Tier-Modell eskalieren zu müssen.

Einordnung in die Modelllandschaft

Das ehrliche Wettbewerbsbild für Gemini 2.5 Flash Mitte 2026:

Gegenüber Anthropic-Mid-Tier: Claude Sonnet 4.5 gewinnt bei europäischsprachiger Verwaltungsprosa und Konsistenz der Ablehnungshaltung bei strukturierter Ausgabe. Gemini 2.5 Flash gewinnt bei reiner Geschwindigkeit bei kurzen Prompts und darin, dass das 1M-Fenster jenseits der 200k-Marke nutzbar ist, wo Sonnet 4.5 verblasst. Claude Haiku 4.5 konkurriert bei einfacheren Aufgaben beim Preis pro Aufruf.

Gegenüber OpenAI-Mid-Tier: GPT-5-Mid-Tier-Varianten konkurrieren bei reiner Geschwindigkeit und Code-Generierungsqualität. 2.5 Flash gewinnt bei Multimodalität über Bilder hinaus — native Audio- und Video-Verständnisfähigkeit ist in der Gemini-Familie stärker.

Gegenüber dem Rest der Gemini-Linie: Gemini 2.5 Pro ist der Aufstieg für reasoning-lastige Arbeit. Die 3.x-Flash-Previews sind der Aufstieg für die neuesten Fähigkeiten, mit den üblichen Preview-Vorbehalten zu Ratenlimits und Verhaltenstabilität.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und die Kategorie-Scores auf /benchmarks/intelligence.

Wann es das falsche Werkzeug ist

Top-of-Stack-Reasoning. Für Aufgaben, die tiefes mehrstufiges Reasoning erfordern, zu Gemini 2.5 Pro oder 3 Pro Preview wechseln.

Ultra-kostensensitive Batch-Jobs bei massivem Volumen. Gemini 2.5 Flash-Lite ist die günstigere Stufe für Workloads, bei denen Kosten jede andere Überlegung dominieren.

Echtzeit-Sprache mit niedriger Latenz von Anfang bis Ende. Für Voice-in-Voice-out-Architekturen die audio-nativen Modelle in der Familie ansehen. Den Voice-Pipeline-Leitfaden auf /usecases/voice konsultieren.

Code-Generierung unter sich schnell entwickelnden Frameworks, bei der idiomatischer Output gewünscht ist. 2.5 Flash ist kompetent, aber nicht spezialisiert. Die Modellübersicht auf /usecases/code deckt die Alternativen ab.

Self-Hosted-Deployment oder Fine-Tuning über Standard-Adapter-Tuning hinaus. Google liefert keine Gemini-Gewichte. Für Workloads, die On-Premise-Deployment brauchen, ist die Open-Weight-Übersicht auf /usecases/local der richtige Ausgangspunkt.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich erwartungsgemäß. Das Modell ist gut instrumentiert und integriert sich sauber mit dem breiteren Vertex-AI-Tooling für Monitoring und Logging.

Regionale Verfügbarkeit folgt Googles Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen ist die regionale Vertex-AI-Dokumentation die richtige Referenz.

Preise sind wettbewerbsfähig mit den Anthropic- und OpenAI-Mid-Tier-Optionen. Für hochvolumige Workloads ist der Preis pro Aufruf einer von mehreren Faktoren — Latenz, Kontextfenster und Qualität bei spezifischen Prompts sind wichtiger als der Schlagzeilen-Tarif.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Flash, wenn:

Sie ein starkes Mid-Tier-Modell mit einem nutzbaren Million-Token-Kontextfenster wollen.
Der Workload Vision-Eingabe bei Dokumenten, Diagrammen oder Abbildungen umfasst.
Latenz bei kurzen Prompts genauso wichtig ist wie Qualität bei langen.
Sie bereits auf Googles Stack sind oder Multi-Cloud-Flexibilität haben.

Wählen Sie etwas anderes, wenn:

Der Workload Top-of-Stack-Reasoning braucht. Zu 2.5 Pro oder 3 Pro Preview wechseln.
Kosten pro Aufruf dominieren und die Qualitätsabnahme zu Flash-Lite akzeptabel ist.
Konsistente Ablehnungshaltung im Anthropic-Stil benötigt wird. Claude passt besser.
Die Arbeit audio-nativ oder video-nativ ist. Die modalitätsspezifischen Modelle ansehen.

Zusammenfassung: Gemini 2.5 Flash ist die langweilige, richtige Standardwahl für Produktions-Gemini-Deployments. Die neueren 3.x-Previews sind am führenden Rand möglicherweise fähiger, aber für Stabilität, Ratenlimits und gut verstandenes Verhalten ist 2.5 Flash der richtige Ausgangspunkt für die meisten Teams.

Testen Sie es gegen Alternativen mit eigenen Prompts unter /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

718 ms

P95-Latenz

721 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026