Tier B — Produktion

Läuft in:USErstellt in:United States

Gemini 3.1 Flash Lite

Tier B — Produktion · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 26. Juli 2026

Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 3.1 Flash Lite

$0.2500 pro 1M Input-Tokens

$1.50 pro 1M Output-Tokens

≈ $0.0004 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.2500

pro 1M Output-Tokens$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

▼ −44% since first

$1.50

output / 1M

▼ −44% since first

2026-06-072026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Abschnitt 03

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65536

Abschnitt 04

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=34

Mediane Antwortzeit

1,248ms

n=34

Basierend auf 54 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 05

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-597/100 · 47 runs

42 correct5 partial0 wrong89% accuracy

● 2026-07-19

Quality decline across categories with reasoning performance now unmeasured

Gemini 3.1 Flash Lite shows a notable 6-point drop in overall quality score, falling from 99.3 to 93.3 out of 100 in the current benchmark window. The model maintains perfect scores in coding and multilingual tasks at 100 each, but creative performance registered at just 80, suggesting potential regression in generative capabilities. Most concerning is the complete absence of reasoning scores in the current window, despite achieving a perfect 100 in this category previously. This missing data point makes it difficult to assess whether the model has actually lost reasoning capability or if the test coverage has simply changed. Latency remains relatively stable with a marginal increase from 1408ms to 1460ms at the median, representing a 52ms degradation that should be negligible for most use cases. The consistency in test runs at 5 per window provides reasonable confidence in these measurements. Users should be aware that while specialized tasks like coding and multilingual processing remain strong, the overall reliability appears to have decreased. The missing reasoning benchmark is particularly notable given its previous perfect performance, and users relying on logical inference capabilities should exercise caution until this metric is re-established.

Quality

93.3

Latency p50

1,460 ms

Test runs

✗ Quality dropped 6 points✗ Reasoning category no longer tested✗ Creative score fell to 80✓ Coding and multilingual remain perfect

Letzter automatisierter Test

26. Juli 2026 · 05:38 UTC · Benchmark

P50-Latenz

812 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Juli 2026