Zum Inhalt
Tier B — Produktion
Läuft in:USErstellt in:United States
Google Gemini

Gemini 2.5 Flash-Lite

Tier B — Produktion · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 2.5 Flash-Lite ist ein Large Language Model, das von Google als Teil der Gemini-Familie entwickelt wurde. Es ist für standardmäßige Textgenerierungsaufgaben konzipiert und bietet ein ausgewogenes Verhältnis zwischen Leistung und Ressourceneffizienz. Das Modell ist als leichtgewichtige Variante innerhalb der Gemini 2.5-Reihe positioniert und für Anwendungen optimiert, bei denen ein reduzierter Rechenaufwand vorteilhaft ist, während gleichzeitig ein leistungsfähiges Verständnis und eine Generierung natürlicher Sprache erhalten bleiben. Ein zentrales technisches Merkmal von Gemini 2.5 Flash-Lite ist sein Kontextfenster von 1.048.576 Tokens, was etwa einer Million Tokens entspricht. Diese erweiterte Kontextkapazität ermöglicht es dem Modell, große Textmengen in einem einzigen Inferenzaufruf zu verarbeiten und zu analysieren, wodurch es sich für Aufgaben mit langen Dokumenten, umfangreichen Konversationsverläufen oder komplexen mehrstufigen Interaktionen eignet. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen, einschließlich Frage-Antwort-Systemen, Zusammenfassungen, Inhaltserstellung und Dialoganwendungen. Innerhalb der Gemini-Reihe von Google liegt die 2.5 Flash-Lite-Variante hinsichtlich Rechenintensität unter den Standardmodellen Flash und Pro und bietet eine zugänglichere Option für Entwickler und Anwendungen mit Einschränkungen bei Latenz- oder Durchsatzanforderungen. Sie steht für Googles Ansatz, gestaffelte Modelloptionen bereitzustellen, die unterschiedlichen Anwendungsanforderungen gerecht werden – von durchsatzstarken Produktionsumgebungen bis hin zu experimentellen oder ressourcenbeschränkten Deployments. Das Modell ist über Googles AI Platform-Dienste und standardmäßige API-Zugangspunkte verfügbar.

Gemini 2.5 Flash-Lite bringt einen Millionen-Token-Kontext in ein ressourcenoptimiertes Paket.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
3223425652796301273205-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
97
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 2.5 Flash-Lite
$0.1000 pro 1M Input-Tokens
$0.4000 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)441 / avg 398
61517

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Ressourceneffizient bei großem Kontext1-Million-Token-KontextfensterGeringer Durchsatz-OverheadPraktisch für Throughput-SystemeStandardsprachaufgaben abgedecktZugänglich über Google AI Platform

Schwächen

Unterhalb Flash und Pro in ReasoningBegrenzte kreative TiefeNicht für komplexe Analyse
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Abschnitt 07

Häufig gestellte Fragen

Flash-Lite ist noch effizienter und ressourcenschonender als der Standard-Flash, eignet sich für Szenarien mit Kapazitäts- oder Latenzbeschränkungen.

Die Lite-Variante beweist, dass schlankes Design und riesige Kontextfenster kein Widerspruch sein müssen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 72 runs
56 correct13 partial3 wrong78% accuracy
2026-06-14

Gemini 2.5 Flash-Lite adds tools and vision while maintaining performance

Gemini 2.5 Flash-Lite has expanded significantly with the addition of seven new capabilities including tools, vision, reasoning, PDF input, and various JSON modes. These additions transform the model from a text-only processor into a multimodal system with function calling and structured output support. Performance metrics remain exceptionally strong, though no current benchmark data is available for direct comparison. The previous window showed perfect scores across language understanding and generation tasks with notably low latency. The new capabilities suggest the model can now handle complex workflows involving image analysis, document processing, and API integrations while potentially maintaining its speed advantage. Users should note that parallel tool calling and prompt caching support indicate optimization for production use cases. The reasoning capability addition suggests improved handling of multi-step problems. However, without current performance data, it remains unclear whether these extensive new features impact the model's previous speed characteristics or accuracy levels. The transformation from a lightweight text model to a full-featured multimodal system represents a significant evolution in the model's intended use cases and target applications.

Quality

Latency p50

Test runs

0

Seven new capabilities added Vision and tool support enabled Reasoning capability introduced PDF input now supported
Abschnitt 10

Vollständiges Modellprofil

Gemini 2.5 Flash-Lite — illustration 1
Gemini 2.5 Flash-Lite: die Kostenstufe der produktiven Flash-Familie

Gemini 2.5 Flash-Lite (gemini-2.5-flash-lite) ist der kostengünstige Einstieg in die produktive 2.5-Flash-Familie. Ein Kontextfenster von 1.048.576 Token — das gleiche Fenster wie die volle 2.5-Flash-Variante. Text- und Vision-Eingabe. Gebaut für hochvolumige Arbeit, bei der der Preis pro Aufruf wichtiger ist als absolute Leistungsfähigkeit.

Die treffendste Beschreibung: Flash-Lite ist die richtige Wahl, wenn man den vollen Flash angeschaut und entschieden hat, dass die Qualität mehr ist als der Workload tatsächlich braucht, und die Pro-Stufe angeschaut und entschieden hat, dass die Kosten mehr sind als der Workload rechtfertigt. Es sitzt bewusst im Budget-Band und macht das Budget-Band gut.

Warum dieser Snapshot sich durchgesetzt hat

Mehrere Dinge trafen in 2.5 Flash-Lite ein, die es zum Standard-Upgrade-Ziel für Teams machten, die 2.0 Flash-Lite liefen:

  • Schärferes Reasoning als die 2.0-Generation, insbesondere bei mehrstufigen Extraktionsaufgaben, bei denen 2.0 Flash-Lite manchmal streckte.
  • Sauberere Einhaltung strukturierter Ausgaben. JSON-Schemas halten auch auf der Lite-Stufe zuverlässig.
  • Bessere Long-Context-Aufmerksamkeitsqualität in der Tiefe. Das 1M-Fenster ist jenseits von 200k Token nützlicher als im 2.0-Lite-Snapshot.
  • Verbesserte Vision-Qualität bei Dokumentenleseaufgaben.
  • Ablehnungshaltung stärker auf die größeren Gemini-Modelle ausgerichtet — weniger uneinheitliche Behandlung von grenzwertigen Prompts.

Für die meisten Workloads auf 2.0 Flash-Lite war die Migrationskostenrechnung einfach genug, dass Teams gewechselt sind.

Was es gut kann

Das 1M-Kontextfenster zu einem Lite-Tier-Preis ist die Schlagzeile. Wenige Konkurrenten im gleichen Band bieten so viel Kontext, und 2.5 Flash-Lite nutzt es sinnvoll besser als die 2.0-Generation.

Latenz hält bei kurzen Prompts gut stand. Das Modell streamt schnell und bleibt reaktionsfähig, wenn die Eingabe wächst. Für Echtzeit-Chat-Erlebnisse zu niedrigen Kosten ist das Latenzprofil wirklich nutzbar.

Multimodale Eingabe funktioniert für routinemäßige Dokumentenlese-Workloads. Screenshots, gescannte Formulare, Dashboard-Aufnahmen — das Modell behandelt sie mit ausreichender Sorgfalt für die meisten Extraktions-Pipelines. Nicht beste Klasse für Vision, aber solide in dem Band, bei dem man der Ausgabe für Standardaufgaben vertrauen kann.

Tool-Use und strukturierte Ausgabe sind zuverlässig genug für die meisten agentisch geformten Workloads dieser Stufe. Schema-Einhaltung ist sauber; Tool-Call-Payloads sind gut geformt.

Was es schlecht kann

Reasoning-Tiefe ist die sichtbare Einschränkung. Das Modell behandelt unkomplizierte Extraktion und Klassifizierung sauber, streckt sich aber bei mehrstufigem Reasoning. Für Aufgaben, die sorgfältige Synthese erfordern, ist die volle 2.5-Flash-Variante der richtige Aufstieg.

Long-Context-Aufmerksamkeitsqualität ist merklich besser als die 2.0-Lite-Generation, bleibt aber bei der Synthese über verstreute Fakten hinter der vollen 2.5-Flash-Variante. Für reine Retrieval-Anfragen gegen gut strukturierte Eingaben hält die Lite-Stufe stand. Für Synthese in der Tiefe aufsteigen.

Vision-Qualität liegt unter der vollen 2.5-Flash-Variante und deutlich unter der 2.5-Pro-Variante. Für vision-lastige Workloads, bei denen Bildqualität wichtiger ist als Kosten, ist dies der falsche Ausgangspunkt.

Code-Generierung ist kompetent für einfache Aufgaben, aber konservativ bei komplexen. Die Lite-Stufe ist nicht das richtige Band für IDE-passendes Code-Arbeiten.

Einordnung in die Modelllandschaft

Gegenüber neueren Lite-Tier-Snapshots — dem 3.1 Flash Lite Preview — ist 2.5 Flash-Lite die produktionsstabilere Wahl. Der 3.1-Preview zeigt Verbesserungen in einigen Kategorien, trägt aber Preview-Tier-Ratenlimit- und Verhaltensüberlegungen.

Gegenüber Konkurrenten im gleichen Band: Claude Haiku 4.5 ist bei reasoning-lastigeren Workloads fähiger, entspricht aber nicht dem 1M-Kontextfenster. Kleinere OpenAI-Varianten konkurrieren bei Geschwindigkeit, typischerweise mit kürzeren Kontexten. Für reine Kosten pro Aufruf bei hohem Volumen mit langem Kontext ist 2.5 Flash-Lite eine der stärksten aktuellen Optionen.

Für Sub-Cent-Kosten pro Aufruf bei kleineren Kontextgrößen konkurrieren die OVH-gehosteten Open-Weight-Optionen auf /usecases/local auf einer anderen Achse.

Das Kategorie-Bild finden Sie auf /benchmarks/leaderboard und die Kategorie-Scores auf /benchmarks/intelligence.

Wo es seinen Sweet-Spot hat

Einige Workloads, bei denen 2.5 Flash-Lite seinen Sweet-Spot trifft:

  • Hochvolumiges FAQ-Routing, bei dem der entscheidende Faktor der Durchsatz ist, nicht die Reasoning-Tiefe.
  • Kundenservice-Triage und -Klassifizierung in großem Maßstab.
  • Long-Context-Retrieval gegen strukturierte Dokumente, bei dem das Modell nur Fakten finden muss, statt darüber zu synthesieren.
  • Prototyping, bei dem die Kosten pro Aufruf niedrig genug sind, dass Experimentieren keine Budgetgenehmigung erfordert.
  • Mehrsprachiger Kundensupport für Routineanfragen — das Modell behandelt gängige europäische Sprachen ausreichend auch auf der Lite-Stufe.

Wann es das falsche Werkzeug ist

Alles, das tiefes mehrstufiges Reasoning erfordert. Zur vollen 2.5-Flash-Variante oder zur Pro-Stufe wechseln.

Vision-lastige Workloads, bei denen Bildqualität wichtig ist. Die vollen 2.5-Flash- und 2.5-Pro-Varianten produzieren merklich bessere Ausgaben.

Sicherheitskritische Anwendungen ohne nachgelagerte Verifizierung. Ablehnungshaltung ist vernünftig, aber nicht auf dem Niveau der größeren Gemini-Modelle.

Code-Generierung unter sich schnell entwickelnden Frameworks. Die Lite-Stufe ist nicht das richtige Band. Die Modellübersicht auf /usecases/code deckt die Alternativen ab.

Echtzeit-Sprache. Keine Audio-Eingabe. Den Voice-Pipeline-Leitfaden auf /usecases/voice konsultieren.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, strukturierte Ausgabe — alles verhält sich erwartungsgemäß für die zugrunde liegende Fähigkeitsoberfläche.

Regionale Verfügbarkeit folgt Googles Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen ist die regionale Vertex-AI-Dokumentation die richtige Referenz.

Preise sind der historische Differenziator für diese Stufe. Die aktuellen Vertex-AI-Preise sollten die Referenz sein, nicht Launch-Zahlen. Für sehr hochvolumige Workloads ist das Delta der Kosten pro Aufruf gegenüber dem vollen 2.5 Flash bedeutend; prüfen Sie, ob die tatsächlich benötigte Qualität den Aufstieg rechtfertigt.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Flash-Lite, wenn:

  • Der Workload hochvolumig ist und Kosten pro Aufruf wichtig sind.
  • Sie das 1M-Kontextfenster zu einem Lite-Tier-Preis benötigen.
  • Die Aufgabe Extraktion, Klassifizierung, Retrieval oder Routing ist, kein tiefes Reasoning.
  • Sie bereits auf dem Google-Stack sind und dort bleiben wollen.

Wählen Sie etwas anderes, wenn:

  • Der Workload Reasoning-Tiefe oder sorgfältige Synthese benötigt. Zum vollen 2.5 Flash wechseln.
  • Vision-Qualität wichtiger ist als Kosten.
  • Sicherheitskritische Anwendung ohne nachgelagerte Verifizierung. Ein größeres Modell verwenden.
  • Die Arbeit Audio, Sprache oder Video ist.

Zusammenfassung: Solides Kostenstufen-Modell, das sein Band gut macht. Für hochvolumige Arbeit, bei der die Qualitätsanforderungen bescheiden sind und das Kontextfenster wichtig ist, ist 2.5 Flash-Lite eine der stärksten Optionen auf dem Markt.

Vergleichen Sie mit den Alternativen auf eigenen Prompts unter /live-test.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash-Lite — illustration 2Gemini 2.5 Flash-Lite — illustration 3
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
454 ms
P95-Latenz
502 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026