Zum Inhalt
Tier A — Frontier
Läuft in:USErstellt in:United States
Google Gemini

Gemini 3.5 Flash

Tier A — Frontier · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·

Gemini 3.5 Flash vereint ein außergewöhnlich großes Kontextfenster von über einer Million Token mit der Geschwindigkeit eines Flash-Modells und positioniert sich damit als vielseitiger Allrounder für anspruchsvolle Produktionsumgebungen.

Tokonomix Modellanalyse
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz14 runs
574698823947107105-2705-31ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

0
Codegenerierung
99
Kreativ
50
Faktisch
100
Mehrsprachig
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 3.5 Flash
$1.50 pro 1M Input-Tokens
$9.00 pro 1M Output-Tokens
≈ $0.0027 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.50
pro 1M Output-Tokens$9.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.50

input / 1M

— stable

$9.00

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)264 / avg 270
345187

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Millionen-Token-Kontext für große DokumenteHohe Inferenzgeschwindigkeit trotz KontextgrößeMehrsprachige Verarbeitung möglichGut für lange KonversationsverläufeSolide A-Tier-Qualität bei ReasoningGeeignet für strukturierte DatenextraktionIntegration in Google Cloud ÖkosystemProduktionsreife und Stabilität

Schwächen

Fehlende native BildgenerierungAbhängigkeit von Google-InfrastrukturMögliche Wissensbegrenzung durch TrainingsdatumWeniger transparent bei Fähigkeitendetails
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Abschnitt 07

Häufig gestellte Fragen

Mit 1.048.576 Token können je nach Formatierung etwa 3.000-4.000 Seiten verarbeitet werden. Das reicht für mehrere Bücher, umfangreiche Codebasen oder komplette Projektdokumentationen in einem einzigen Request.

Für Teams, die große Dokumentenmengen verarbeiten und dabei nicht auf Antwortgeschwindigkeit verzichten möchten, bietet Gemini 3.5 Flash ein überzeugendes Gesamtpaket in der A-Tier-Kategorie.

Tokonomix Redaktion
Abschnitt 08

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-547/100 · 9 runs
4 correct0 partial5 wrong44% accuracy
2026-06-07

Gemini 3.5 Flash adds multimodal features, core performance unchanged

Gemini 3.5 Flash has expanded its capabilities significantly with the addition of tools, vision, audio input, PDF processing, JSON modes, and prompt caching. These multimodal features represent a substantial technical evolution from the initial release. However, performance across existing benchmarks remains essentially static. The model continues to demonstrate strong coding capabilities while struggling with creative writing tasks, maintaining the same performance profile observed in the previous window. No benchmark scores have changed materially, suggesting that the capability additions are functional expansions rather than quality improvements to core reasoning or generation. Users gain access to a much broader feature set for building applications that require structured output, function calling, or multimodal understanding, but should not expect improvements in text generation quality, reasoning depth, or creative tasks. The model remains best suited for technical applications, structured data tasks, and scenarios where its expanded tooling capabilities can be leveraged. For pure text generation or creative applications, the known weaknesses persist unchanged.

Quality

Latency p50

Test runs

0

Added multimodal input support New structured output capabilities Function calling now available Creative writing still weak
Abschnitt 09

Vollständiges Modellprofil


Gemini 3.5 Flash: Der schnelle und fähige Arbeitspferd der dritten Generation

Im schnelllebigen Umfeld der KI-Technologien steht Google's DeepMind-Modell Gemini 3.5 Flash als widerstandsfähiges Modell, das für Hochgeschwindigkeitsinferenz und umfassende multimodale Unterstützung entwickelt wurde. Es ist zwischen dem Einstiegsmodell Gemini 3.0 Flash Preview und dem fortgeschrittenen 3.x Pro positioniert und bietet eine ausgewogene Mischung aus Leistung und Kosten, die für verschiedene Produktions-Workloads geeignet ist. Zu den herausragenden Merkmalen gehören ein Kontextfenster mit 1 Million Tokens und umfassende multimodale Eingabefähigkeiten, was es zu einer robusten Wahl für Unternehmen macht, die Agilität und Tiefe benötigen. Unser Urteil: Ideal für Teams, die ein Gleichgewicht zwischen Geschwindigkeit, Breite und Vernunft zu einem gerechtfertigten Preis benötigen — aber bereit sein für hohe Ausgabekosten.

Architektur & Training

Der Gemini 3.5 Flash ist Teil der Gemini 3-Generation, die einen bedeutenden Fortschritt gegenüber seinen Vorgängern in der Gemini-Reihe darstellt. Während spezifische Architekturdetails nicht öffentlich zugänglich sind, nutzen die Modelle der dritten Generation fortschrittliche Architekturen auf Transformer-Basis, die verbesserte Vernunftfähigkeit bieten, insbesondere erkennbar an der nativen Unterstützung für "chain-of-thought"-Verarbeitung beim Gemini 3.5 Flash. Dies wird wahrscheinlich durch Verbesserungen sowohl in der Modellarchitektur als auch in den Trainingsmethodologien ermöglicht.

Der Gemini 3.5 Flash unterscheidet sich vom Gemini 3.0 Flash Preview durch eine höhere Durchsatzleistung und ein größeres Kontextfenster, ein erheblicher Sprung gegenüber den Fähigkeiten des früheren Modells. Im Vergleich zum höherpreisigen 3.x Pro bietet er eine stabile, aber weniger kostspielige Alternative und verzichtet auf einige der zusätzlichen Schichten und Parameterkomplexitäten, die mit der Pro-Version einhergehen.

Bezüglich der Trainingsdaten, obwohl Google nicht die spezifischen Datensätze oder den genauen Trainingsstopp offengelegt hat, profitiert der Gemini 3.5 Flash wahrscheinlich von einem Trainingsregime, das eine Vielzahl von mehrsprachigen und multimodalen Eingaben umfasst. Das Modell unterstützt Audio-, Video-, PDF- und Bildeingaben, was seine Vielseitigkeit im Umgang mit komplexen, diversen Informationsflüssen bestätigt, die in modernen KI-Anwendungen erforderlich sind.

Wo es glänzt

Gemini 3.5 Flash beeindruckt mit fünf Kernstärken:

  1. Native Vernunft: Gemini 3.5 Flash brilliert bei Aufgaben, die logische Strukturierung und Problemlösung erfordern, dank seiner integrierten "chain-of-thought"-Verarbeitung. Dies ermöglicht es Benutzern, komplexe Szenarien zu bewältigen, ohne Optionen umschalten oder zusätzliche Konfigurationen vornehmen zu müssen, was besonders in risikoreichen Umgebungen wie juristischer Recherche oder komplexer Datensynthese von Vorteil ist. Zum Beispiel zeigt es im Kontext von /usecases/reasoning eine Fähigkeit zur effektiven Analyse und Verarbeitung komplexer logischer Sequenzen.

  2. Millionen-Token Kontextfenster: Mit einem Kontextfenster von 1.048.576 Tokens ermöglicht der Gemini 3.5 Flash eine beispiellose Kontinuität in Dialog- und Datenverarbeitung. Diese Kapazität ist besonders wertvoll in Anwendungen wie /usecases/data-extraction, wo große Datensätze in einer einzigen Sitzung analysiert werden müssen, was ein umfassendes kontextuelles Verständnis ohne häufige Unterbrechungen ermöglicht.

  3. Multimodale Breite: Das Modell unterstützt Audio-, Video-, PDF- und Bildeingaben, was es zu einem vielseitigen Werkzeug in Bereichen wie Multimedia-Inhaltsaggregation und -analyse macht. Aufgaben unter /usecases/customer-service können immens von solchen Fähigkeiten profitieren, indem Innovationen in der Kundendiensttechnologie durch reichhaltigere, interaktivere Erfahrungen gefördert werden.

  4. Websuche-Erdung: Der Gemini 3.5 Flash integriert Websuche-Erdung, was seine Fähigkeit verbessert, Echtzeitdaten und Verifizierung in Antworten zu integrieren. Diese Eigenschaft ist Schlüssel für Anwendungen, die aktualisierte und faktische Inhaltsextraktion erfordern, entscheidend für /usecases/code in dynamisch wachsenden Code-Repositories oder Echtzeit-Transaktionsüberwachung.

  5. Kostenpositionierung: Zwischen günstigeren Alternativen und Premium-Tiers positioniert, bietet der Gemini 3.5 Flash eine überzeugende Wertversprechung. Obwohl teurer als der 2.5 Flash, liefert er verbesserte Vernunftfähigkeiten und multimodale Unterstützung und ist kosteneffizient für Organisationen, die eine robuste, umfassende KI-Lösung benötigen.

Wo es mangelt

Trotz seiner Stärken enthält der Gemini 3.5 Flash einige Einschränkungen, die Entscheidungsträger berücksichtigen müssen:

  1. Hohe Ausgabepreise: Der Ausgabepreis des Modells von 9 $ pro 1M Tokens kann für Workflows, die eine große Textgenerierung umfassen, wie das Erstellen umfangreicher Berichte oder Masseninhaltsproduktion, abschreckend sein. Es erfordert sorgfältige wirtschaftliche Planung und könnte seine Nutzung in rein generativen Kontexten beschränken, in denen Kosteneffizienz entscheidend ist.

  2. Ausgabebegrenzung: Die maximale Ausgabekapazität von 65.535 Tokens kann für bestimmte umfangreiche generative Aufgaben einschränkend sein. Während ausreichend für die meisten betrieblichen Bedürfnisse, könnte es Herausforderungen in Szenarien präsentieren, die eine lange narrativte Generierung oder detaillierte Vorschläge erfordern.

  3. Unbekannte Faktoren: Schlüsselelemente wie die genaue Parameteranzahl und das definitive Wissens-Cutoff-Datum bleiben unklar. Diese mangelnde Transparenz könnte ein Nachteil sein, wenn es darum geht, mit Konkurrenten zu vergleichen, die explizitere Details über ihre Modellarchitekturen und Datenrichtlinien bieten.

  4. Konkurrenz: Während Kosten und Fähigkeiten im Gleichgewicht sind, bieten Konkurrenten günstigere Modelle, die für einfache Anwendungsfälle attraktiver sein könnten, die nicht die umfangreichen multimodalen und Vernunftfähigkeiten des Gemini 3.5 Flash erfordern.

Reale Anwendungsfälle

Der Gemini 3.5 Flash glänzt in verschiedenen realen Szenarien, in denen seine einzigartige Mischung aus Geschwindigkeit, Leistung und Breite spezifischen Branchenanforderungen gerecht wird:

  1. Gesundheitsdokumentation (Gesundheitswesen): Mit seinen Fähigkeiten, umfangreiche Kontextfenster und multimodale Eingaben zu handhaben, kann der Gemini 3.5 Flash effektiv detaillierte medizinische Berichte erstellen und überprüfen. Mit Eingabedaten aus PDFs und relevanten medizinischen Datenbanken kann er komplexe Krankengeschichten analysieren und so in der Dokumentation von Patientendiagnosen helfen.

  2. Analyse von juristischen Dokumenten (Rechtssektor): Die native Vernunft und das lange Kontextmanagement des Modells sind im Rechtssektor hervorragend, indem sie umfangreiche juristische Dokumente verarbeiten, um relevante Informationen zu extrahieren, Unstimmigkeiten zu identifizieren und eine zusammengefasste Analyse zu liefern, was in juristischen Überprüfungsprozessen kritisch ist.

  3. Echtzeit-Finanzüberwachung (Finanzwesen): Durch die Nutzung der Websuche-Erdung neben nativen Interpretationsfähigkeiten stellt der Gemini 3.5 Flash sicher, dass Finanzanalysten die neuesten Datenpunkte haben und aus aktuellen Marktnachrichten und -aktualisierungen indexieren, um Anpassungen in der Portfoliomanagement zu empfehlen.

  4. Multimediale Bildungsinhalte (Bildung): Das Modell, das Audio-, Video- und Textdaten gleichzeitig verarbeiten kann, ermöglicht es Lehrenden, interaktive Lernmodule zu entwickeln, die Echtzeit-Feedback und Updates aus aktuellen akademischen Publikationen integrieren.

Tokonomix Benchmark Snapshot

In unseren internen Tests in verschiedenen Bereichen zeigt der Gemini 3.5 Flash konsequent Spitzenleistungen in Bezug auf logische Schlussfolgerungen und faktische Extraktion, insbesondere bei komplexen Aufgaben mit logischen Sequenzen. Seine Leistung in mehrsprachigen Fähigkeiten und genaue Programmieraufgaben entspricht gut unseren Erwartungen an High-End-Modelle der dritten Generation. Seine Ergebnisse werden regelmäßig aktualisiert, was seine stetige Zuverlässigkeit und funktionale Vielseitigkeit widerspiegelt. Für detaillierte Vergleichsmetriken besuchen Sie unsere Benchmark-Leaderboards.

EU-Datenschutz & Datenresidenz

Gehostet auf der robusten Infrastruktur von Google Cloud, erfüllt der Gemini 3.5 Flash die GDPR-Konformität, was für Organisationen, die innerhalb oder in Zusammenarbeit mit der Europäischen Union operieren, unerlässlich ist. Google bietet umfassende Datenresidenzoptionen, die sichere Operationen in Sektoren wie Gesundheitswesen, Recht und öffentlicher Verwaltung erleichtern, die strenge regulatorische Anforderungen an den Datenschutz haben. Diese Konformität stellt sicher, dass das Modell in Workflows integriert werden kann, die sensible Daten betreffen, mit der Gewissheit, dass Datenschutzstandards eingehalten werden.

Urteil & Alternativen

Der Gemini 3.5 Flash ist die ideale Wahl für Organisationen, die ein leistungsstarkes, vielseitiges KI-Modell benötigen, das komplexe multimodale Eingaben mit signifikanter Vernunftfähigkeit verwalten kann. Diejenigen, die sich auf budgetäre Einschränkungen konzentrieren oder einen niedrigeren Preis schätzen, könnten auf wirtschaftlichere Modelle wie den Gemini 3.0 Flash Preview für einfachere Aufgaben zurückgreifen. Doch für Teams, die robuste Datenanalysen und Interaktion erfordern, erfüllt und übertrifft der Gemini 3.5 Flash die Erwartungen.

Mit Blick auf die Zukunft deutet die Gemini 3-Roadmap auf progressive Verbesserungen hin, insbesondere bei der Verfeinerung der Aufgabeneffizienzen und möglicherweise auch bei der Behandlung der Preisdynamik. Über Updates informiert zu bleiben, wird entscheidend sein, um das volle Potenzial in der sich entwickelnden KI-Workflowszene auszuschöpfen.

Letzte technische Überprüfung: 2026-05-27 — Tokonomix.ai

Letzter automatisierter Test
7. Juni 2026 · 04:49 UTC · Benchmark
P50-Latenz
4712 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·27. Mai 2026