Warum trotzdem 1 Million Tokens Kontext?

Der große Kontext bleibt erhalten, damit lange Dokumente und Gesprächsverläufe verarbeitet werden können, auch wenn das Modell ansonsten leichtgewichtiger ist.

Für welche Deployment-Szenarien ist Lite geeignet?

Hochdurchsatz-Produktionssysteme, experimentelle Deployments und Anwendungen mit Ressourcen- oder Kostenbeschränkungen.

Ist Flash-Lite Teil der Gemini-2.5-Familie?

Ja, es ist ein leichtgewichtiger Ableger innerhalb der Gemini-2.5-Produktlinie von Google.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Gemini 2.5 Flash-Lite

Tier B — Produktion · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Gemini 2.5 Flash-Lite ist ein Large Language Model, das von Google als Teil der Gemini-Familie entwickelt wurde. Es ist für standardmäßige Textgenerierungsaufgaben konzipiert und bietet ein ausgewogenes Verhältnis zwischen Leistung und Ressourceneffizienz. Das Modell ist als leichtgewichtige Variante innerhalb der Gemini 2.5-Reihe positioniert und für Anwendungen optimiert, bei denen ein reduzierter Rechenaufwand vorteilhaft ist, während gleichzeitig ein leistungsfähiges Verständnis und eine Generierung natürlicher Sprache erhalten bleiben. Ein zentrales technisches Merkmal von Gemini 2.5 Flash-Lite ist sein Kontextfenster von 1.048.576 Tokens, was etwa einer Million Tokens entspricht. Diese erweiterte Kontextkapazität ermöglicht es dem Modell, große Textmengen in einem einzigen Inferenzaufruf zu verarbeiten und zu analysieren, wodurch es sich für Aufgaben mit langen Dokumenten, umfangreichen Konversationsverläufen oder komplexen mehrstufigen Interaktionen eignet. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen, einschließlich Frage-Antwort-Systemen, Zusammenfassungen, Inhaltserstellung und Dialoganwendungen. Innerhalb der Gemini-Reihe von Google liegt die 2.5 Flash-Lite-Variante hinsichtlich Rechenintensität unter den Standardmodellen Flash und Pro und bietet eine zugänglichere Option für Entwickler und Anwendungen mit Einschränkungen bei Latenz- oder Durchsatzanforderungen. Sie steht für Googles Ansatz, gestaffelte Modelloptionen bereitzustellen, die unterschiedlichen Anwendungsanforderungen gerecht werden – von durchsatzstarken Produktionsumgebungen bis hin zu experimentellen oder ressourcenbeschränkten Deployments. Das Modell ist über Googles AI Platform-Dienste und standardmäßige API-Zugangspunkte verfügbar.

Gemini 2.5 Flash-Lite bringt einen Millionen-Token-Kontext in ein ressourcenoptimiertes Paket.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz102 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 2.5 Flash-Lite

$0.1000 pro 1M Input-Tokens

$0.4000 pro 1M Output-Tokens

≈ $0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.1000

pro 1M Output-Tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)333 / avg 419

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Ressourceneffizient bei großem Kontext1-Million-Token-KontextfensterGeringer Durchsatz-OverheadPraktisch für Throughput-SystemeStandardsprachaufgaben abgedecktZugänglich über Google AI Platform

Schwächen

Unterhalb Flash und Pro in ReasoningBegrenzte kreative TiefeNicht für komplexe Analyse

Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535

Abschnitt 07

Häufig gestellte Fragen

Flash-Lite ist noch effizienter und ressourcenschonender als der Standard-Flash, eignet sich für Szenarien mit Kapazitäts- oder Latenzbeschränkungen.

Die Lite-Variante beweist, dass schlankes Design und riesige Kontextfenster kein Widerspruch sein müssen.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-592/100 · 112 runs

91 correct17 partial4 wrong81% accuracy

● 2026-07-26

Gemini 2.5 Flash-Lite gains speed but quality drops 11 points

Gemini 2.5 Flash-Lite shows a significant performance shift in this benchmark window. The model delivered a notable 27% latency improvement, reducing median response time from 2447ms to 1788ms. However, this speed gain coincides with a concerning 10.7-point drop in overall quality score, falling from 96.8 to 86.1. The quality decline appears uneven across capabilities. Multilingual performance remains exceptional at 100, actually improving from the previous 94. Creative tasks scored 94, down slightly from 98. The most dramatic change appears in previously strong coding capabilities, which scored 98 last window but were replaced in testing by factual tasks that scored just 71 and reasoning at 80. This suggests potential optimization tradeoffs or model adjustments between windows. The current configuration favors multilingual and creative workloads while showing weaknesses in factual accuracy. Users prioritizing response speed and multilingual support will find value here, but those requiring high factual precision or complex reasoning may want to evaluate carefully. The substantial quality variance between benchmark windows raises questions about model stability and warrants continued monitoring.

Quality

86.1

Latency p50

1,788 ms

Test runs

✓ 27% faster response time✓ Perfect multilingual score maintained✗ Quality dropped 10.7 points✗ Factual accuracy only 71

Abschnitt 10

Vollständiges Modellprofil

Gemini 2.5 Flash-Lite: die Kostenstufe der produktiven Flash-Familie

Gemini 2.5 Flash-Lite (gemini-2.5-flash-lite) ist der kostengünstige Einstieg in die produktive 2.5-Flash-Familie. Ein Kontextfenster von 1.048.576 Token — das gleiche Fenster wie die volle 2.5-Flash-Variante. Text- und Vision-Eingabe. Gebaut für hochvolumige Arbeit, bei der der Preis pro Aufruf wichtiger ist als absolute Leistungsfähigkeit.

Die treffendste Beschreibung: Flash-Lite ist die richtige Wahl, wenn man den vollen Flash angeschaut und entschieden hat, dass die Qualität mehr ist als der Workload tatsächlich braucht, und die Pro-Stufe angeschaut und entschieden hat, dass die Kosten mehr sind als der Workload rechtfertigt. Es sitzt bewusst im Budget-Band und macht das Budget-Band gut.

Warum dieser Snapshot sich durchgesetzt hat

Mehrere Dinge trafen in 2.5 Flash-Lite ein, die es zum Standard-Upgrade-Ziel für Teams machten, die 2.0 Flash-Lite liefen:

Schärferes Reasoning als die 2.0-Generation, insbesondere bei mehrstufigen Extraktionsaufgaben, bei denen 2.0 Flash-Lite manchmal streckte.
Sauberere Einhaltung strukturierter Ausgaben. JSON-Schemas halten auch auf der Lite-Stufe zuverlässig.
Bessere Long-Context-Aufmerksamkeitsqualität in der Tiefe. Das 1M-Fenster ist jenseits von 200k Token nützlicher als im 2.0-Lite-Snapshot.
Verbesserte Vision-Qualität bei Dokumentenleseaufgaben.
Ablehnungshaltung stärker auf die größeren Gemini-Modelle ausgerichtet — weniger uneinheitliche Behandlung von grenzwertigen Prompts.

Für die meisten Workloads auf 2.0 Flash-Lite war die Migrationskostenrechnung einfach genug, dass Teams gewechselt sind.

Was es gut kann

Das 1M-Kontextfenster zu einem Lite-Tier-Preis ist die Schlagzeile. Wenige Konkurrenten im gleichen Band bieten so viel Kontext, und 2.5 Flash-Lite nutzt es sinnvoll besser als die 2.0-Generation.

Latenz hält bei kurzen Prompts gut stand. Das Modell streamt schnell und bleibt reaktionsfähig, wenn die Eingabe wächst. Für Echtzeit-Chat-Erlebnisse zu niedrigen Kosten ist das Latenzprofil wirklich nutzbar.

Multimodale Eingabe funktioniert für routinemäßige Dokumentenlese-Workloads. Screenshots, gescannte Formulare, Dashboard-Aufnahmen — das Modell behandelt sie mit ausreichender Sorgfalt für die meisten Extraktions-Pipelines. Nicht beste Klasse für Vision, aber solide in dem Band, bei dem man der Ausgabe für Standardaufgaben vertrauen kann.

Tool-Use und strukturierte Ausgabe sind zuverlässig genug für die meisten agentisch geformten Workloads dieser Stufe. Schema-Einhaltung ist sauber; Tool-Call-Payloads sind gut geformt.

Was es schlecht kann

Reasoning-Tiefe ist die sichtbare Einschränkung. Das Modell behandelt unkomplizierte Extraktion und Klassifizierung sauber, streckt sich aber bei mehrstufigem Reasoning. Für Aufgaben, die sorgfältige Synthese erfordern, ist die volle 2.5-Flash-Variante der richtige Aufstieg.

Long-Context-Aufmerksamkeitsqualität ist merklich besser als die 2.0-Lite-Generation, bleibt aber bei der Synthese über verstreute Fakten hinter der vollen 2.5-Flash-Variante. Für reine Retrieval-Anfragen gegen gut strukturierte Eingaben hält die Lite-Stufe stand. Für Synthese in der Tiefe aufsteigen.

Vision-Qualität liegt unter der vollen 2.5-Flash-Variante und deutlich unter der 2.5-Pro-Variante. Für vision-lastige Workloads, bei denen Bildqualität wichtiger ist als Kosten, ist dies der falsche Ausgangspunkt.

Code-Generierung ist kompetent für einfache Aufgaben, aber konservativ bei komplexen. Die Lite-Stufe ist nicht das richtige Band für IDE-passendes Code-Arbeiten.

Einordnung in die Modelllandschaft

Gegenüber neueren Lite-Tier-Snapshots — dem 3.1 Flash Lite Preview — ist 2.5 Flash-Lite die produktionsstabilere Wahl. Der 3.1-Preview zeigt Verbesserungen in einigen Kategorien, trägt aber Preview-Tier-Ratenlimit- und Verhaltensüberlegungen.

Gegenüber Konkurrenten im gleichen Band: Claude Haiku 4.5 ist bei reasoning-lastigeren Workloads fähiger, entspricht aber nicht dem 1M-Kontextfenster. Kleinere OpenAI-Varianten konkurrieren bei Geschwindigkeit, typischerweise mit kürzeren Kontexten. Für reine Kosten pro Aufruf bei hohem Volumen mit langem Kontext ist 2.5 Flash-Lite eine der stärksten aktuellen Optionen.

Für Sub-Cent-Kosten pro Aufruf bei kleineren Kontextgrößen konkurrieren die OVH-gehosteten Open-Weight-Optionen auf /usecases/local auf einer anderen Achse.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und die Kategorie-Scores auf /benchmarks/intelligence.

Wo es seinen Sweet-Spot hat

Einige Workloads, bei denen 2.5 Flash-Lite seinen Sweet-Spot trifft:

Hochvolumiges FAQ-Routing, bei dem der entscheidende Faktor der Durchsatz ist, nicht die Reasoning-Tiefe.
Kundenservice-Triage und -Klassifizierung in großem Maßstab.
Long-Context-Retrieval gegen strukturierte Dokumente, bei dem das Modell nur Fakten finden muss, statt darüber zu synthesieren.
Prototyping, bei dem die Kosten pro Aufruf niedrig genug sind, dass Experimentieren keine Budgetgenehmigung erfordert.
Mehrsprachiger Kundensupport für Routineanfragen — das Modell behandelt gängige europäische Sprachen ausreichend auch auf der Lite-Stufe.

Wann es das falsche Werkzeug ist

Alles, das tiefes mehrstufiges Reasoning erfordert. Zur vollen 2.5-Flash-Variante oder zur Pro-Stufe wechseln.

Vision-lastige Workloads, bei denen Bildqualität wichtig ist. Die vollen 2.5-Flash- und 2.5-Pro-Varianten produzieren merklich bessere Ausgaben.

Sicherheitskritische Anwendungen ohne nachgelagerte Verifizierung. Ablehnungshaltung ist vernünftig, aber nicht auf dem Niveau der größeren Gemini-Modelle.

Code-Generierung unter sich schnell entwickelnden Frameworks. Die Lite-Stufe ist nicht das richtige Band. Die Modellübersicht auf /usecases/code deckt die Alternativen ab.

Echtzeit-Sprache. Keine Audio-Eingabe. Den Voice-Pipeline-Leitfaden auf /usecases/voice konsultieren.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich erwartungsgemäß für die zugrunde liegende Fähigkeitsoberfläche.

Regionale Verfügbarkeit folgt Googles Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen ist die regionale Vertex-AI-Dokumentation die richtige Referenz.

Preise sind der historische Differenziator für diese Stufe. Die aktuellen Vertex-AI-Preise sollten die Referenz sein, nicht Launch-Zahlen. Für sehr hochvolumige Workloads ist das Delta der Kosten pro Aufruf gegenüber dem vollen 2.5 Flash bedeutend; prüfen Sie, ob die tatsächlich benötigte Qualität den Aufstieg rechtfertigt.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Flash-Lite, wenn:

Der Workload hochvolumig ist und Kosten pro Aufruf wichtig sind.
Sie das 1M-Kontextfenster zu einem Lite-Tier-Preis benötigen.
Die Aufgabe Extraktion, Klassifizierung, Retrieval oder Routing ist, kein tiefes Reasoning.
Sie bereits auf dem Google-Stack sind und dort bleiben wollen.

Wählen Sie etwas anderes, wenn:

Der Workload Reasoning-Tiefe oder sorgfältige Synthese benötigt. Zum vollen 2.5 Flash wechseln.
Vision-Qualität wichtiger ist als Kosten.
Sicherheitskritische Anwendung ohne nachgelagerte Verifizierung. Ein größeres Modell verwenden.
Die Arbeit Audio, Sprache oder Video ist.

Zusammenfassung: Solides Kostenstufen-Modell, das sein Band gut macht. Für hochvolumige Arbeit, bei der die Qualitätsanforderungen bescheiden sind und das Kontextfenster wichtig ist, ist 2.5 Flash-Lite eine der stärksten Optionen auf dem Markt.

Vergleichen Sie mit den Alternativen auf eigenen Prompts unter /live-test.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 14:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

601 ms

P95-Latenz

601 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026