Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
Google Gemini

Gemini 3.1 Pro Preview Custom Tools

Tier C — Spezialist · 1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 3.1 Pro Preview Custom Tools ist eine experimentelle Version von Googles Gemini 3.1 Pro Modell, die erweiterte Funktionen zur Tool-Nutzung integriert. Diese Variante richtet sich an Entwickler und Forscher, die fortgeschrittenes Function Calling und die Einbindung externer Tools in Anwendungen mit großen Sprachmodellen untersuchen. Sie ermöglicht es dem Modell, über eine strukturierte Tool-Calling-Schnittstelle mit benutzerdefinierten APIs, Datenbanken und externen Diensten zu interagieren, und eignet sich damit für den Aufbau komplexer KI-Agenten und Systeme zur Workflow-Automatisierung. Das Modell verfügt über ein Kontextfenster von rund 1.048 Millionen Tokens und kann damit extrem lange Konversationen, Dokumente oder mehrstufige Schlussfolgerungsketten verarbeiten und beibehalten. Diese erweiterte Kontextkapazität ist besonders wertvoll für Anwendungen, die die Analyse umfangreicher Codebasen, eine umfassende Dokumentenprüfung oder ausgedehnte Dialogsitzungen erfordern. Neben der erweiterten Tool-Nutzung bietet das Modell standardmäßige Textgenerierungsfunktionen und unterstützt sowohl konversationelle KI-Anwendungen als auch aufgabenorientierte Implementierungen, die externen Datenzugriff oder die Ausführung von Aktionen benötigen. Innerhalb der Modellpalette von Google fungiert diese Variante als spezialisierter Preview-Release der Gemini 3.1 Pro Stufe und ist zwischen Standard-Produktionsmodellen und neuesten experimentellen Versionen angesiedelt. Sie bietet Entwicklern frühzeitigen Zugang zur sich weiterentwickelnden Tool-Use-Architektur von Google und behält dabei die zentralen Reasoning- und Generierungsfähigkeiten der Gemini 3.1 Pro Basis bei. Die Bezeichnung „Preview" signalisiert, dass es sich um eine Vorabversion handelt, die für Tests und Feedback gedacht ist und nicht für den produktiven Einsatz.

Eine experimentelle Preview-Variante, die Googles Tool-Use-Architektur in den Mittelpunkt stellt und Entwicklern frühen Zugriff auf erweiterte Funktionsaufrufe gewährt.

Tokonomix Redaktionsanalyse
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz14 runs
109741807263103451342805-2705-31ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

43
Codegenerierung
27
Mehrsprachig
45
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 3.1 Pro Preview Custom Tools
$2.00 pro 1M Input-Tokens
$12.00 pro 1M Output-Tokens
≈ $0.0036 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.00
pro 1M Output-Tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)156 / avg 140
18189

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Riesiger Kontext mit 1M+ TokensErweiterte Custom-Tool-IntegrationGeeignet für komplexe AgentenStrukturierte API-AnbindungStarke Reasoning-Grundlage der Pro-ReiheAnalyse umfangreicher Codebasen möglichMehrstufige Workflow-AutomatisierungLange Dialogsitzungen ohne Kontextverlust

Schwächen

Preview-Status ohne ProduktionsgarantieUnbekannte Modalitäten und CapabilitiesHöhere Kosten bei großem KontextMögliche regionale Verfügbarkeitslücken
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Abschnitt 07

Häufig gestellte Fragen

Als Preview-Variante ist es primär für Evaluierung und Prototyping gedacht. Für produktive Workloads empfiehlt sich der Wechsel auf eine stabile Gemini-Pro-Version, sobald diese verfügbar ist.

Für Teams, die komplexe Agenten und Workflow-Automatisierung evaluieren, bietet dieses Modell eine solide Spielwiese – mit den üblichen Vorbehalten einer Preview-Version.

Tokonomix Verdict
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-545/100 · 76 runs
29 correct7 partial40 wrong38% accuracy
2026-06-14

New model debuts with extensive multimodal capabilities

Gemini 3.1 Pro Preview Custom Tools enters benchmarking with a comprehensive feature set spanning multiple input modalities and output formats. The model supports tools, vision, audio input, PDF processing, and structured output through both JSON mode and JSON schema capabilities. Reasoning and prompt caching features are also available. Without previous benchmark data for comparison, this represents the model's initial capability profile rather than performance changes. Users gain access to a versatile multimodal system that handles diverse input types including text, images, audio, and documents. The custom tools designation suggests enhanced function calling capabilities for agentic workflows. The preview status indicates this is a pre-release version that may undergo further refinement. As this is the first benchmark window with data, performance characteristics across these capabilities remain to be validated through continued testing. Organizations evaluating this model should conduct their own assessments for specific use cases, particularly given its preview nature. Future benchmark windows will establish performance trends and stability metrics across the newly available feature set.

Quality

Latency p50

Test runs

0

Multimodal input support added Structured output capabilities enabled Tool calling functions available Prompt caching now supported
Abschnitt 10

Vollständiges Modellprofil

Gemini 3.1 Pro Preview Custom Tools — illustration 1
Gemini 3.1 Pro Preview Custom Tools: der Spezialist für Agenten-Schleifen

Hinweis — zukunftsorientiertes Profil. Gemini 3.1 Pro Preview Custom Tools (gemini-3.1-pro-preview-customtools) ist ein Preview-Snapshot. Verhalten, Fähigkeiten und Rate-Limits werden sich vor der allgemeinen Verfügbarkeit ändern.

Eine spezialisierte Variante des 3.1 Pro Preview, konzipiert für Workloads, die stark auf strukturierte Tool-Integration angewiesen sind. Ein Kontextfenster von 1.048.576 Token. Text-plus-Vision-Input. Dieselbe grundlegende Capability-Oberfläche wie das Basis-3.1 Pro Preview, plus erweitertes Tool-Use-Verhalten, das für produktive Agenten-Schleifen optimiert wurde.

Wenn Sie ein Agentensystem auf Basis eines Top-Tier-Gemini-Modells gebaut haben und sich dabei ertappt haben, defensive Parsing-Layer um Tool-Call-Outputs zu schreiben, ist diese Variante für Ihre Situation konzipiert.

Was „Custom Tools" tatsächlich hinzufügt

Die Custom Tools-Variante ist dasselbe zugrundeliegende Modell mit spezifischem Training und Inference-Zeit-Tuning für Tool-Integration. Die Unterschiede zum Basis-3.1 Pro Preview zeigen sich in:

  • Zuverlässigere Tool-Call-Payloads bei komplexen Schemata. Das Basis-3.1 Pro Preview ist hier bereits stark; die Custom Tools-Variante ist stärker.
  • Bessere Handhabung von langen Tool-Result-Ketten, bei denen das Modell die Ausgabe eines Tools interpretieren muss, um zu entscheiden, welches Tool als nächstes aufgerufen wird.
  • Sauberere Fehlerwiederherstellung, wenn ein Tool ein unerwartetes Ergebnis zurückgibt oder vollständig fehlschlägt. Das Modell erkennt den Fehlermodus eher und versucht es entweder mit Anpassung erneut oder eskaliert sauber.
  • Verbesserte Einhaltung von Tool-Use-Policies — Anweisungen darüber, wann Tools aufgerufen werden sollen, wann der Benutzer gefragt werden soll, wann abgelehnt werden soll, wann delegiert werden soll.
  • Konsistentere Reasoning-Transparenz, wenn der Agent zwischen mehreren Tool-Optionen entscheidet.

Das Basis-3.1 Pro Preview deckt die meisten Workloads ab. Die Custom Tools-Variante ist für Workloads gedacht, bei denen die marginale Verbesserung der Agenten-Schleifen-Zuverlässigkeit wichtig genug ist, um das spezialisierte Modell zu rechtfertigen.

Was es gut macht

Erbt die zugrundeliegenden Stärken des 3.1 Pro Preview. Das 1M-Kontextfenster mit Aufmerksamkeitsqualität, die in der Tiefe hält. Starke multimodale Handhabung. Top-Tier-Reasoning-Tiefe. Nativer Vision-Input.

Darüber hinaus die Tool-Use-Politur. Produktive Agenten-Schleifen, die zuvor defensive Parsing-Layer, Retry-Harnesses oder sorgfältiges Schema-Engineering benötigten, funktionieren auf dieser Variante tendenziell sauberer out of the box.

Das Latenzprofil ist ähnlich wie beim Basis-3.1 Pro Preview. Das Custom Tools-Tuning fügt keinen nennenswerten Latenz-Overhead hinzu.

Was es schlecht macht

Preview-Tier-Überlegungen gelten. Rate-Limits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit verschieben.

Für Workloads, die nicht stark auf Tool-Integration angewiesen sind, bietet die Custom Tools-Variante marginalen Mehrwert gegenüber dem Basis-3.1 Pro Preview. Das spezialisierte Tuning ist für tool-lastige Workloads konzipiert; für Chat-förmige oder Extraktions-förmige Use Cases ist die Basisvariante der richtige Ausgangspunkt.

Cost-per-Call auf Pro-Tier-Ebene ist bedeutsam. Für hochvolumige Agenten-Schleifen hängt der Kostenfall davon ab, ob die Zuverlässigkeitsverbesserungen die Ausgaben im Maßstab kompensieren.

Self-Hosted-Deployment ist nicht verfügbar. Google liefert keine Gemini-Weights aus.

Wo es glänzt

Einige Workloads, bei denen die Custom Tools-Variante ihre spezialisierte Positionierung verdient:

  • Produktive Agenten-Schleifen, die viele Tool-Calls pro Task orchestrieren und hohe Zuverlässigkeit über die gesamte Kette hinweg benötigen.
  • Komplexe Tool-Ökosysteme mit tief verschachtelten Schemata, bei denen die Schema-Einhaltung unter Druck wichtig ist.
  • Workflows, bei denen Tool-Outputs selbst komplex sind und das Modell sie sorgfältig interpretieren muss, um zu entscheiden, was als nächstes zu tun ist.
  • Agentensysteme mit strikten Tool-Use-Policies — wann Tools aufzurufen sind, wann zu delegieren ist, wann zu eskalieren ist — wo die Einhaltung dieser Policies für das operative Design wichtig ist.
  • Use Cases, bei denen die Kosten eines Agenten-Schleifen-Fehlers hoch genug sind, dass die marginale Zuverlässigkeitsverbesserung das spezialisierte Modell rechtfertigt.

Wo es das falsche Werkzeug ist

Workloads, die Tools nicht stark nutzen. Das Basis-3.1 Pro Preview ist der richtige Ausgangspunkt — dieselbe Modelloberfläche, breitere Anwendbarkeit.

Produktions-Workloads, die heute stabiles Verhalten benötigen. Das Basis-2.5 Pro deckt Tool-Use für die meisten Workloads solide ab; die Custom Tools-Variante auf Preview-Tier-Ebene ist noch nicht die richtige Wahl für produktionskritische Agenten-Schleifen.

Hochvolumige günstige Klassifizierung oder Kurzprompt-Arbeit. Top-Tier-Compute ist die falsch dimensionierte Ausgabe für diese Workloads, unabhängig davon, welche Variante verwendet wird.

Alles außerhalb von Text-plus-Vision-Input. Voice, Audio, Video sind unterschiedliche Modellfamilien.

Wie es sich mit Alternativen vergleicht

Gegen das Basis-3.1 Pro Preview. Die Custom Tools-Variante ist eine marginale Verbesserung der Tool-Use-Zuverlässigkeit für tool-lastige Workloads. Für nicht tool-lastige Arbeit ist die Basisvariante die richtige Wahl.

Gegen 2.5 Pro mit benutzerdefiniertem Tool-Use-Prompting. Für Workloads, bei denen Sie bereits in sorgfältiges Prompt-Engineering und defensives Parsing rund um das Tool-Use-Verhalten von 2.5 Pro investiert haben, hängt die Migrationsmathematik davon ab, ob die Custom Tools-Variante es Ihnen ermöglicht, diese umgebende Architektur wesentlich zu vereinfachen.

Gegen Claude Opus mit aktiviertem Tool-Use. Opus hat sein eigenes starkes Tool-Use-Verhalten mit der Anthropic-typischen Ablehnungshaltung. Für Workloads, bei denen Opus-typisches sorgfältiges Reasoning besser passt, ist das die richtige Wahl. Für Workloads, bei denen Geminis schnellere, direktere Ausgabe besser passt, ist die Custom Tools-Variante die agenten-schleifen-orientiertere Wahl.

Gegen OpenAI Top-Tier mit strukturierten Outputs und Function Calling. Beide Ökosysteme haben stark in Tool-Use-Zuverlässigkeit investiert. Die Wahl hängt oft von der Ökosystem-Passung ab, nicht von der rohen Fähigkeit.

Das Kategorie-Level-Bild lebt unter /benchmarks/leaderboard.

Praktische Muster

Ein paar Dinge, die es wert sind, vor dem Aufbau auf der Custom Tools-Variante zu wissen:

  • Schema-Design ist genauso wichtig wie die Modellwahl. Selbst ein starkes Tool-Use-Modell profitiert von klaren, gut getypten Schemata mit expliziter Felddokumentation.
  • Tool-Beschreibungen im System-Prompt haben echtes Gewicht. Vage Beschreibungen produzieren inkonsistente Tool-Auswahl; spezifische Beschreibungen mit Beispielen produzieren zuverlässigeres Verhalten.
  • Lange Agenten-Schleifen profitieren immer noch von expliziten Schrittzählern und Reset-Mechanismen. Selbst starke Modelle bleiben gelegentlich in Retry-Schleifen stecken; bauen Sie dafür.
  • Das Modell handhabt Tool-Fehler eleganter als die Basisvariante, aber Downstream-Systeme sollten immer noch gelegentliche falsche Tool-Auswahlen erwarten. Bauen Sie Verifikation dort ein, wo es wichtig ist.
  • Für Workloads, die Tool-Use mit Vision oder Long-Context-Reasoning mischen, erbt die Custom Tools-Variante die zugrundeliegenden 3.1 Pro Preview-Stärken in beiden Dimensionen.

Deployment-Hinweise

Standard-Google-Gemini-API. Die Custom Tools-Variante verwendet dieselbe Oberfläche wie das Basis-3.1 Pro Preview, mit derselben Parameter-Form für Tool-Integration.

Die regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind über Unternehmensverträge verfügbar. Der sofort verfügbare Consumer-API-Zugang pinnt keine Region fest.

Preview-Tier-Pricing sollte nicht die Grundlage für langfristige Kostenmodellierung sein. Die Preisstruktur bei allgemeiner Verfügbarkeit kann von Preview-Tier-Raten abweichen.

Für die Planung der Produktionsmigration validieren Sie das Custom Tools-Verhalten gegen Ihr spezifisches Tool-Ökosystem. Die Verbesserungen gegenüber der Basisvariante zeigen sich am deutlichsten in tool-lastigen Workloads; die Validierung sollte diese spezifischen Szenarien testen.

Es auswählen

Greifen Sie zu Gemini 3.1 Pro Preview Custom Tools, wenn:

  • Der Workload eine produktive Agenten-Schleife mit starker Tool-Integration ist.
  • Das Tool-Use-Verhalten des Basis-3.1 Pro Preview gut ist, Sie aber die marginale Zuverlässigkeitsverbesserung benötigen.
  • Preview-Tier-Rate-Limits und Verhaltensüberlegungen akzeptabel sind.
  • Die Kosten von Agenten-Schleifen-Fehlern hoch genug sind, um das spezialisierte Modell zu rechtfertigen.

Wählen Sie etwas anderes, wenn:

  • Der Workload nicht stark auf Tool-Integration angewiesen ist. Verwenden Sie das Basis-3.1 Pro Preview.
  • Sie heute produktionsstabiles Verhalten benötigen. Verwenden Sie 2.5 Pro mit sorgfältigem Tool-Use-Prompting.
  • Der Workload im Maßstab kostensensitiv ist. Wechseln Sie zu einer Flash-Variante.
  • Sie Self-Hosted- oder Fine-Tuned-Deployment benötigen.

Die Zusammenfassung. Spezialisierte Variante des 3.1 Pro Preview für tool-lastige Agenten-Workloads. Für die spezifischen Workloads, bei denen die Spezialisierung wichtig ist, ist es die richtige Wahl. Für alles andere ist das Basis-3.1 Pro Preview oder 2.5 Pro der bessere Ausgangspunkt.

Testen Sie es gegen Ihre eigene Agenten-Schleife unter /live-test. Die Deltas zeigen sich am deutlichsten in realen Tool-Use-Szenarien statt in synthetischen Benchmarks.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview Custom Tools — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 05:02 UTC · Benchmark
P50-Latenz
6069 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026