Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
Google Gemini

Gemini 3.1 Pro Preview

Tier C — Spezialist · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 3.1 Pro Preview ist ein großes Sprachmodell, das von Google als Teil der Gemini-Modellfamilie entwickelt wurde. Dieses Modell stellt eine experimentelle Preview-Version der 3.1-Generation dar und ist zwischen Googles Standard-Produktionsmodellen und hochmodernen Forschungsvarianten positioniert. Es ist für allgemeine Textgenerierungsaufgaben konzipiert, einschließlich natürlichem Sprachverständnis, Reasoning, Content-Erstellung und Konversationsanwendungen. Das bemerkenswerteste technische Merkmal des Modells ist sein Kontextfenster von 1.048.576 Token, was etwa einer Million Token Verarbeitungskapazität entspricht. Diese erweiterte Kontextlänge ermöglicht es dem Modell, erhebliche Informationsmengen in einer einzelnen Interaktion zu verarbeiten, was es für Aufgaben mit langen Dokumenten, umfangreichen Codebasen oder Konversationen geeignet macht, die erheblichen historischen Kontext erfordern. Das Modell bietet Standard-Textgenerierungsfunktionen ohne multimodale Features wie Bildverarbeitung oder Function Calling. Innerhalb von Googles Modellpalette dient Gemini 3.1 Pro Preview als Zwischenangebot, das Entwicklern und Forschern ermöglicht, neuere Funktionen zu testen, bevor diese allgemein verfügbar werden. Als Preview-Version kann es andere Leistungsmerkmale aufweisen als stabile Produktionsmodelle und könnte basierend auf Nutzerfeedback Änderungen oder Verbesserungen unterliegen. Das Modell richtet sich an Nutzer, die große Kontextfenster für textbasierte Anwendungen benötigen und bereit sind, mit Preview-Technologie zu arbeiten.

Gemini 3.1 Pro Preview vereint experimentelle Architektur mit einem außergewöhnlich großen Kontextfenster von über einer Million Token und positioniert sich als Testfeld für Googles nächste Modellgeneration.

Tokonomix Modellanalyse
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz14 runs
1188277243575941752505-2705-31ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

50
Codegenerierung
29
Mehrsprachig
15
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 3.1 Pro Preview
$2.00 pro 1M Input-Tokens
$12.00 pro 1M Output-Tokens
≈ $0.0036 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.00
pro 1M Output-Tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)132 / avg 127
16795

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

1 Million Token KontextfensterFrüher Zugang zu 3.1-GenerationLange Dokumente in einem DurchlaufErweiterte Gesprächskontexte möglichGroße Codebases analysierbarFeedback-basierte WeiterentwicklungSpezialisiert auf TextverarbeitungGoogle-Infrastruktur und Integration

Schwächen

Preview-Status ohne StabilitätsgarantienKeine multimodalen FähigkeitenTier C LeistungsklasseFehlende Function-Calling-Unterstützung
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Abschnitt 07

Häufig gestellte Fragen

Als Preview-Release ist Gemini 3.1 Pro Preview primär für Tests und Experimente gedacht. Das Modell kann sich ändern und bietet nicht die Stabilität von Production-Modellen. Für kritische Anwendungen sollten stabile Alternativen in Betracht gezogen werden.

Für Teams, die umfangreiche Dokumente verarbeiten und bereit sind, mit Preview-Software zu arbeiten, bietet dieses Modell einen frühen Zugang zu Googles fortgeschrittenen Fähigkeiten – allerdings ohne die Stabilität von Produktionsmodellen.

Tokonomix Editorial Team
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=1

Letzte 30 Tage

100.0%

n=1

Mediane Antwortzeit

16,761ms

n=1

Basierend auf 6 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

1

OK-Antworten (30d)

1

Gesamte Aufrufe (7d)

1

OK-Antworten (7d)

1

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-548/100 · 76 runs
30 correct8 partial38 wrong39% accuracy
2026-06-14

Gemini 3.1 Pro Preview adds multimodal capabilities without benchmarks

Gemini 3.1 Pro Preview has undergone a significant expansion in capabilities since the previous evaluation period. The model now supports a comprehensive suite of features including vision, audio input, PDF processing, reasoning modes, and structured output formats through both JSON mode and JSON schema. Tool calling and prompt caching have also been added to the platform's feature set. However, no benchmark performance data is available for either the current or previous evaluation windows, making it impossible to assess the model's actual performance on standard tasks or compare quality metrics across time. The addition of multimodal inputs represents a substantial architectural evolution, positioning the model to handle diverse use cases from document analysis to audio processing. Users should note that while the capability expansion is impressive on paper, the absence of benchmark results means performance characteristics remain unvalidated. For production deployments, organizations will need to conduct their own evaluations to understand how these new capabilities perform in practice and whether quality has been maintained, improved, or degraded during this significant feature expansion.

Quality

Latency p50

Test runs

0

Vision and audio input added PDF processing now supported Structured output modes available No benchmark data available
Abschnitt 10

Vollständiges Modellprofil

Gemini 3.1 Pro Preview — illustration 1
Gemini 3.1 Pro Preview: das Top-Tier der nächsten Generation

Hinweis — vorausschauendes Profil. Gemini 3.1 Pro Preview (gemini-3.1-pro-preview) ist ein Preview-Snapshot. Verhalten, Fähigkeiten und Rate Limits werden sich vor der allgemeinen Verfügbarkeit noch ändern.

Der Top-Tier-Eintrag der nächsten Generation in Googles Gemini-Familie. Ein Kontextfenster von 1.048.576 Tokens. Text-plus-Vision-Input. Eine Reasoning-Tiefe, die die Pro-Linie über die 2.5 Pro-Generation hinaus voranbringt und gleichzeitig die architektonische Oberfläche beibehält, gegen die Produktionsteams gebaut haben.

Die passende Einordnung für dieses Preview. 3.1 Pro ist das, wonach man greift, wenn 2.5 Pro das Produktionsmodell ist, dem man vertraut, man aber einen spezifischen Workload hat, bei dem die Qualität der limitierende Faktor war. Die 3.1-Generation schließt einen Teil dieser Lücke. Ob die Schließung eine Migration weg von einem funktionierenden 2.5 Pro-Deployment rechtfertigt, hängt von Ihrer konkreten Situation ab.

Was sich gegenüber 2.5 Pro geändert hat

Die 3.1 Pro-Generation bringt mehrere Verbesserungen gegenüber 2.5 Pro:

  • Schärferes Reasoning bei mehrstufigen Aufgaben. Die Chains-of-Thought bleiben tiefer in der Verschachtelung kohärent, und das Modell verliert in komplexen Problemen seltener den Überblick über Zwischenbedingungen.
  • Bessere Long-Context-Attention-Qualität in der Tiefe. Das 1M-Fenster war auf 2.5 Pro nutzbar; auf 3.1 Pro ist die Synthesequalität jenseits von 400k Input-Tokens spürbar präziser.
  • Verbesserte Einhaltung von Structured-Output bei komplexen, verschachtelten Schemata. Payloads von Tool-Use-Calls sind zuverlässiger.
  • Stärkere Vision-Qualität bei dichten Dokumenten und komplexen Diagrammen.
  • Konsistenteres Verhalten bei Ablehnungen (Refusals), mit ausreichend sichtbarem Reasoning, um einen False Positive debuggen zu können.

Keine dieser Verbesserungen ist für sich genommen transformativ. Der Gesamteffekt ergibt ein Top-Tier, das mehr von dem leistet, was ein Top-Tier leisten soll.

Was es gut macht

Die Schlagzeilen-Kombination bleibt dieselbe wie bei 2.5 Pro: ein Kontextfenster mit einer Million Tokens und einer Attention-Qualität, die in der Tiefe stabil bleibt. Die 3.1-Generation treibt beide Dimensionen voran.

Mehrstufiges Reasoning ist die sichtbarste Verbesserung. Aufgaben, die 2.5 Pro mit sorgfältigem Prompt Engineering bewältigen konnte, funktionieren jetzt mit einfacheren Prompts. Aufgaben, die 2.5 Pro nicht konsistent meistern konnte, liefern jetzt verlässlichere Ergebnisse.

Die Vision-Qualität ist gegenüber 2.5 Pro verbessert. Dokument-Screenshots, gescannte PDFs, Dashboard-Captures, Diagramme, Schemata — sie werden bei dichten oder komplexen Quellen mit mehr Sorgfalt behandelt. Tabellenextraktion ist zuverlässiger. Diagrammbeschreibungen enthalten präzisere Größenordnungseinschätzungen.

Die Tool-Use-Zuverlässigkeit ist stark genug, um produktive Agent-Loops aufzubauen, ohne defensives Parsing schreiben zu müssen. Die Verbesserung gegenüber 2.5 Pro ist eher inkrementell als transformativ, fällt aber im Maßstab ins Gewicht.

Was es schlecht macht

Es gelten die Erwägungen einer Preview-Stufe. Rate Limits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit verschieben. Für Produktionsworkloads, die heute stabiles Verhalten benötigen, bleibt 2.5 Pro die konservativere Wahl.

Die Latenz auf Pro-Niveau ist höher als auf Flash-Niveau, wie zu erwarten. Die 3.1-Generation ändert nichts an diesem grundlegenden Trade-off; man bezahlt Reasoning-Tiefe in Wanduhrzeit.

Die Kosten pro Call auf Pro-Niveau sind nennenswert. Für hochvolumige Workloads hängt der Case für ein Verbleiben auf Pro davon ab, ob der Workload die Top-Tier-Qualität wirklich braucht. Ein Wechsel auf eine Flash-Variante ist für kostensensitive Anwendungsfälle oft die richtige Entscheidung.

Self-hosted Deployment steht nicht auf der Speisekarte. Google liefert keine Gemini-Gewichte aus. Für Workloads, die On-Prem laufen müssen, ist die Übersicht über Open-Weight-Modelle unter /usecases/local der richtige Ausgangspunkt.

Wo es im Feld steht

Gegen frühere Pro-Snapshots — 2.5 Pro. Das 3.1-Preview ist das natürliche Upgrade für Neuentwicklungen, bei denen Verhalten auf Preview-Niveau akzeptabel ist. Für bestehende Produktionsdeployments auf 2.5 Pro hängt der Migrationsfall davon ab, ob die Verbesserungen für Ihren konkreten Workload relevant sind.

Gegen die 3 Pro Preview-Linie. Das 3 Pro Preview ist das breitere Pro-Tier-Angebot der 3.x-Generation; 3.1 Pro ist eine Verfeinerung darüber. Für Workloads, die von den aktuellsten Fähigkeiten profitieren, ist 3.1 Pro die zeitgemäßere Wahl. Für Workloads, bei denen das spezifische Verhalten des 3 Pro Preview bereits validiert wurde, ist die Migration auf 3.1 ein kleinerer Sprung als ausgehend von 2.5.

Gegen das Anthropic-Top-Tier. Claude Opus 4.7 liefert dasselbe 1M-Kontextfenster mit einem anderen Reasoning-Stil — vorsichtiger, expliziter, langsamer. Die Wahl zwischen Opus 4.7 und 3.1 Pro Preview läuft darauf hinaus, ob man Opus-typisches behutsames Reasoning oder Gemini-typischen schnelleren Output mit starker multimodaler Verarbeitung bevorzugt.

Gegen das OpenAI-Top-Tier. GPT-5 konkurriert beim Reasoning und ist bei kurzen Prompts oft schneller. 3.1 Pro Preview gewinnt bei nativer Multimodalität jenseits von Bildern und beim 1M-Kontextfenster, das für Synthese tatsächlich sinnvoll nutzbar ist.

Das Bild auf Kategorie-Ebene findet sich unter /benchmarks/leaderboard und die Scores pro Kategorie unter /benchmarks/intelligence.

Wo es das falsche Werkzeug ist

Produktionsworkloads, die heute stabiles Verhalten brauchen. Verwenden Sie 2.5 Pro, bis die 3.x-Linie allgemein verfügbar ist.

Hochvolumige, billige Klassifikation. Top-Tier-Compute ist die falsche Ausgabengröße, um Millionen kurzer Prompts zu verschicken. Wechseln Sie auf eine Flash-Variante.

Echtzeit-Sprachdialog. Kein natives Audio-Input. Der Voice-Pipeline-Leitfaden unter /usecases/voice deckt die richtige Architektur ab.

Code-Generierung, bei der bestmögliche IDE-Integration wichtiger ist als Reasoning-Tiefe. Das Modell ist bei Code kompetent, aber nicht spezialisiert. Die Modellübersicht unter /usecases/code zeigt die Alternativen.

Alles, was Sub-Sekunden-Antwortzeiten auf großen Eingaben benötigt. Die Latenz in der Tiefe des Kontextfensters ist real; für zeitkritische Anwendungen passt ein kleineres Modell mit Caching oft besser.

Wie es sich von 3.1 Pro Preview Custom Tools unterscheidet

Die Custom-Tools-Variante von 3.1 Pro Preview ergänzt spezialisierte Tool-Use-Fähigkeiten für Workloads, die stark auf strukturierte Tool-Integration angewiesen sind. Für Workloads, bei denen das Standard-Tool-Use-Verhalten ausreicht, ist diese Basis-Variante der richtige Ausgangspunkt. Für Workloads, die die spezialisierte Tool-Integration benötigen, ist die Custom-Tools-Variante die richtige Wahl.

Deployment-Hinweise

Standard-Google-Gemini-API. REST, Streaming, Tool-Use, Structured Output — alles verhält sich wie für die Pro-Tier-Fähigkeitsoberfläche zu erwarten. Die Integration in das breitere Vertex-AI-Toolset für Monitoring, Logging und Safety-Controls ist sauber.

Die regionale Verfügbarkeit folgt Googles üblichem Vertex-AI-Muster. EU-Regionen sind über Enterprise-Verträge verfügbar. Der Standard-Consumer-API-Zugang fixiert keine Region. Für harte Residency-Anforderungen ist die Vertex-AI-Regional-Dokumentation die richtige Referenz.

Preise auf Preview-Niveau sollten nicht die Grundlage für langfristige Kostenmodellierung sein. Die Preisstruktur bei allgemeiner Verfügbarkeit kann von den Preview-Tarifen abweichen.

Rate Limits und Verhaltensstabilität sind die wesentlichen operativen Überlegungen während des Previews. Migrationspläne für die Produktion sollten die Möglichkeit von Verhaltensänderungen vor der allgemeinen Verfügbarkeit einkalkulieren.

Auswahl

Greifen Sie zu Gemini 3.1 Pro Preview, wenn:

  • Sie Top-Tier-Fähigkeiten der nächsten Generation für zukünftige Produktionsdeployments ausloten.
  • Der Workload bei 2.5 Pro durch Reasoning-Tiefe oder Long-Context-Synthese eingeschränkt war.
  • Rate Limits und Verhaltensaspekte auf Preview-Niveau für Ihr Traffic-Profil akzeptabel sind.
  • Sie bereits auf dem Google-Stack arbeiten.

Wählen Sie etwas anderes, wenn:

  • Sie heute produktionsstabiles Verhalten brauchen. Verwenden Sie 2.5 Pro.
  • Der Workload durch eine Flash-Variante hinreichend bedient wäre. Steigen Sie zur Kosteneinsparung ab.
  • Die Arbeit audio-natives Input, Echtzeitsprache oder Video erfordert.
  • Sie eine Refusal-Konsistenz im Stil von Anthropic Opus benötigen. Schauen Sie sich Opus an.

Die Zusammenfassung. Starker Pro-Tier-Snapshot der nächsten Generation, der gegenüber 2.5 Pro spürbare Fortschritte bringt. Für Preview-Tier-Erkundung und vorausschauendes Design ist es der richtige Ausgangspunkt. Für heute produktionsstabile Deployments bleibt 2.5 Pro die konservative Wahl, bis die 3.x-Linie allgemein verfügbar ist.

Lassen Sie dieselben Prompts durch 2.5 Pro und 3.1 Pro Preview unter /live-test laufen. Die Deltas zeigen sich am klarsten im direkten Vergleich auf Ihrem eigenen Workload.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:55 UTC · Benchmark
P50-Latenz
6937 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026