Wie unterscheidet sich das Modell von allgemeinen LLMs bei Recherche?

Es zerlegt komplexe Fragen systematisch in Teilaufgaben, sammelt Informationen iterativ, bewertet Quellen und synthetisiert Erkenntnisse in strukturierte Reports. Standard-LLMs geben direkte Antworten basierend auf ihrem Trainingskorpus.

Was bedeutet der Preview-Status für Produktivanwendungen?

Google kann Verhalten, Fähigkeiten und Verfügbarkeit anpassen. Für kritische Workflows empfiehlt sich ausgiebiges Testing und ein Backup-Plan. Der Status signalisiert aktive Entwicklung mit möglichen Breaking Changes.

Kann das Modell auf interne Unternehmensdatenbanken zugreifen?

Das hängt von der API-Integration ab. Das 131k-Token-Fenster erlaubt das Einbetten umfangreicher Dokumente direkt im Prompt. Für Echtzeit-Datenbankabfragen sind zusätzliche RAG- oder Tool-Integrationen nötig.

Welche Anwendungsfälle profitieren am meisten von diesem Modell?

Wissenschaftliche Literaturanalyse, Wettbewerbsrecherche, technische Dokumentationserstellung, Marktforschungssynthesen und alle Szenarien, die methodische Tiefe über Geschwindigkeit stellen.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Deep Research Pro Preview (Dec-12-2025)

Tier B — Produktion · 131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Deep Research Pro Preview ist ein experimentelles Modell aus Googles Gemini-Familie, das im Dezember 2025 veröffentlicht wurde. Es stellt eine spezialisierte Variante dar, die gezielt für komplexe Rechercheaufgaben entwickelt wurde, die erweiterte Denkprozesse und umfassende Informationssynthese erfordern. Das Modell baut auf Googles grundlegender Sprachmodellarchitektur auf, mit Modifikationen, die für tiefgehende Analyseworkflows optimiert wurden – nicht für allgemeine Chat-Zwecke oder schnelle Antworten. Dieses Modell verfügt über ein Kontextfenster von 131.000 Token, was die Verarbeitung erheblicher Informationsmengen in einer einzelnen Sitzung ermöglicht. Anders als standardmäßige Konversationsmodelle ist Deep Research Pro Preview darauf ausgelegt, mehrstufige Rechercheprozesse durchzuführen, einschließlich Zerlegung von Anfragen, systematischer Informationsbeschaffung, Quellenbewertung und Synthese der Erkenntnisse in strukturierte Berichte. Es zeichnet sich bei Aufgaben aus, die gründliche Untersuchung technischer Themen, vergleichende Analysen über mehrere Domänen hinweg und Erstellung detaillierter Dokumentation mit ordnungsgemäßer Quellenangabe erfordern. Innerhalb von Googles Gemini-Produktpalette nimmt Deep Research Pro Preview eine spezialisierte Nische ein, die sich von den allgemeinen Gemini-Modellen und den codeorientierten Varianten unterscheidet. Während standardmäßige Gemini-Modelle konversationelle Flüssigkeit und breite Aufgabenabdeckung priorisieren, opfert dieses forschungsorientierte Modell Antwortgeschwindigkeit zugunsten von Tiefe und Gründlichkeit. Die „Preview"-Bezeichnung weist auf seinen experimentellen Status hin, wobei Fähigkeiten und Verhaltensweisen basierend auf Nutzerfeedback verfeinert werden. Es richtet sich an Nutzer, die rigorose analytische Fähigkeiten benötigen statt schneller Interaktion, wie etwa Forscher, Analysten und Fachleute, die tiefgehende technische Evaluierungen durchführen.

Deep Research Pro Preview definiert den Ansatz für KI-gestützte Recherche neu – nicht als schneller Chatbot, sondern als methodischer Analytiker, der komplexe Fragestellungen in strukturierte, nachvollziehbare Berichte verwandelt.
— Tokonomix Modellanalyse, Dezember 2025

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Deep Research Pro Preview (Dec-12-2025)

$2.00 pro 1M Input-Tokens

$12.00 pro 1M Output-Tokens

≈ $0.0036 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$2.00

pro 1M Output-Tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

131.000 Token für umfangreiche DokumentenanalyseSpezialisiert auf mehrstufige RechercheprozesseSystematische Quellenauswertung und -syntheseStrukturierte Berichtserstellung mit NachweisenOptimiert für technische TiefenanalysenDomänenübergreifende vergleichende UntersuchungenMethodische Informationsaggregation über IterationenGoogle Gemini Infrastruktur und Zuverlässigkeit

Schwächen

Langsamer als KonversationsmodellePreview-Status – Verhalten kann sich ändernTier und Kosten nicht öffentlich dokumentiertEingeschränkte Capabilities-Informationen verfügbar

Abschnitt 03

Fähigkeiten

source: litellmvisionjson modejson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 32768

Abschnitt 04

Häufig gestellte Fragen

Wenn Sie strukturierte, quellenbasierte Analysen über mehrere Schritte benötigen – etwa für Literaturrecherche, Technologievergleiche oder Due-Diligence-Berichte. Für schnelle Frage-Antwort-Interaktionen sind Standard-Gemini-Modelle effizienter.

Für Organisationen, die fundierte Analysen über schnelle Antworten stellen, bietet dieses Modell eine spezialisierte Alternative zu generalistischen LLMs – mit der Einschränkung, dass der experimentelle Status sorgfältige Evaluierung vor dem Produktiveinsatz erfordert.
— Tokonomix Editorial Board

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

● 2026-07-26

New modalities added, but core performance largely unchanged

Deep Research Pro Preview adds vision capabilities and structured output modes including JSON schema support and prompt caching, expanding its technical versatility. However, these additions have not translated into meaningful performance improvements across core benchmarks. The model maintains a 64.9% coding score, showing no progress from the previous window, while mathematical reasoning remains stagnant at 51.8%. Instruction following improved modestly to 75.9%, suggesting incremental refinement in task adherence. The model continues to struggle with complex reasoning tasks, performing adequately on straightforward coding challenges but faltering when deeper analytical thinking is required. Vision support opens new use cases for multimodal applications, and structured output modes will benefit developers building production systems requiring reliable data formatting. The addition of prompt caching should reduce operational costs for repetitive query patterns. Overall, this release prioritizes feature expansion over performance optimization. Users seeking a capable multimodal assistant with structured output support will find value, but those requiring exceptional mathematical or advanced reasoning capabilities should temper expectations until future iterations address these persistent weaknesses.

Quality

—

Latency p50

—

Test runs

✓ Vision and JSON modes added✓ Instruction following slightly improved✗ Math performance remains flat✗ No coding score improvement

Abschnitt 07

Vollständiges Modellprofil

Deep Research Pro Preview (Dez. 2025): die ursprüngliche Pro-Stufe von Googles Recherche-Stack

Hinweis — zukunftsgerichtetes Profil. Deep Research Pro Preview (deep-research-pro-preview-12-2025) ist der Preview-Snapshot vom Dezember 2025. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern und haben sich seit diesem Snapshot wahrscheinlich bereits verändert.

Deep Research Pro Preview ist der Dezember-2025-Snapshot, der die Pro-Stufe der Deep-Research-Familie einführte. Ein Kontextfenster von 131.072 Token. Langformige Synthese mit Zitaten. Ein agentischer Loop, der Quellen zieht, sie liest und einen strukturierten Bericht produziert.

Er liegt zwischen der Basis-Deep-Research-Preview-Stufe und der Max-Stufe auf der Tiefen-versus-Geschwindigkeits-Kurve. Gründlicher als die Basis, schneller als Max. Für eine Zeit in Anfang 2026 war er die einzige Pro-Tier-Option in dieser Familie.

Wo dieser Snapshot heute noch passt

Einige Situationen, in denen dieser Dezember-2025-Pro-Snapshot der richtige ist und nicht die neueren April-2026-Basis- oder Max-Previews:

Verankerte Evaluierungen und Regressions-Suites, bei denen stabiles Agent-Loop-Verhalten über Monate wichtiger ist als neuere Fähigkeiten.
Workflows, die gegen die Ausgabeverteilung dieses spezifischen Snapshots auditiert wurden und noch nicht neu validiert sind.
Fortgesetzter Zugang, wo die neueren April-2026-Previews ratenlimitiert oder in einer Region vorübergehend nicht verfügbar sind.

Wenn keines davon zutrifft, ist die April-2026-Basis- oder Max-Preview in der Regel der bessere aktuelle Ausgangspunkt. Die Basis-Preview ist schneller; die Max-Preview geht tiefer.

Was es tatsächlich tut

Die Form der Arbeit ist dieselbe wie beim Rest der Deep-Research-Familie. Eine Frage einreichen, die von aktuellen Quellen und expliziten Zitaten profitiert. Der Agent führt mehrere gezielte Suchen durch, liest die relevantesten Ergebnisse, prüft sie gegeneinander und produziert eine strukturierte Antwort:

Eine Zusammenfassung am Anfang.
Aufgliederung in Teilfragen.
Zitate für jede sachliche Aussage mit zitiertem Quellenmaterial.
Eine Liste der verwendeten Quellen.

Läufe dauern typischerweise 30 Sekunden bis ein paar Minuten je nach Fragenkomplexität. Die Ausgabe ist länger und gründlicher als die Basis-Preview, kürzer und schneller als Max.

Wo es wirklich nützlich ist

Dieselbe Anwendungsfallform wie beim Rest der Familie:

Quellenübergreifende Synthese zu Themen, bei denen die Belege über mehrere Primärquellen verstreut sind.
Langformige Berichte, die gegenüber externen Gutachtern vertretbar sein müssen.
Regulatorische oder politische Fragen, bei denen die oberflächliche Zusammenfassung von dem abweicht, was die zugrundeliegenden Dokumente sagen.
Investigative Arbeiten, bei denen die richtige Antwort das Lesen mehrerer Quellen erfordert, statt eine sekundäre Zusammenfassung zu liefern.

Das Muster: Aufgaben, bei denen ein Mensch eine halbe bis eine ganze Stunde sorgfältig lesen würde, passen gut zu dieser Pro-Stufe. Kürzere Aufgaben passen zur Basis-Preview. Längere Aufgaben zu Max.

Vergleich mit den neueren Previews

Gegenüber Deep Research Preview (April 2026), der Basis-Stufe: Die Basis-Preview ist schneller und produziert kürzere Ausgaben. Pro Preview geht tiefer. Wenn der Workload bereits an der Grenze dessen war, was die Basis-Stufe leisten konnte, ist Pro das natürliche Upgrade-Ziel.

Gegenüber Deep Research Max Preview (April 2026): Max läuft länger, liest mehr Quellen und produziert gründlichere Ausgaben auf Kosten von mehr Latenz. Wenn der Workload Tiefe erfordert, die Pro knapp verfehlt, ist Max die Wahl.

Für Workloads, bei denen der Dezember-2025-Pro-Snapshot validiert ist und funktioniert, gibt es selten einen starken Qualitätsgrund für einen Wechsel. Die neueren Snapshots verfeinern den Agent-Loop und das Zitationsverhalten, aber die Kernform der Ausgabe ist ähnlich.

Vergleich außerhalb der Familie

Die direktesten Vergleiche sind suchangereicherte Modi bei OpenAIs GPT-5-Serie und Anthropics Claude-Familie mit aktiviertem Websuche-Tooling. Die Ausgabeform ist ähnlich — Antwort mit Zitaten — aber der Agent-Stil unterscheidet sich.

Googles Deep Research Pro neigt dazu, vielfältigere Quellen zu ziehen als eine Einzelsuch-Alternative. Die Ausgabe ist standardmäßig strukturierter, aber weniger konversationell. Claude mit Websuche ist vorsichtiger und sichert sich sichtbarer ab. OpenAI mit Browsing ist bei gleicher Frage schneller und produziert gesprächlichere Ausgaben.

Für Recherche-Workloads, bei denen Zitationsdichte und Struktur wichtig sind, ist die Deep-Research-Familie — einschließlich Pro-Stufe — wettbewerbsfähig. Für interaktive Recherche, bei der der Nutzer die Frage während des Laufs verfeinern möchte, passen Claude oder OpenAI besser.

Das Kategorie-Bild finden Sie auf /benchmarks/intelligence und das Leaderboard auf /benchmarks/leaderboard.

Wann es das falsche Werkzeug ist

Konversationsinteraktionen. Nicht die richtige Modellform.

Hochvolumige Aufrufe. Jeder Aufruf kostet erhebliche Rechenleistung und dauert merkliche Zeit. Kein Chatbot-Werkzeug.

Alles, das keine buchstäbliche Recherche ist. Code, Debugging, Bildarbeit — falsche Familie.

Workloads, bei denen Aktualität jenseits des Index-Cutoffs wichtiger ist als Tiefe. Der Such-und-Zitier-Loop ist nur so aktuell wie der Index, aus dem er zieht.

Deployment-Hinweise

Standard-Google-Gemini-API. Die Deep-Research-Modelle teilen die breitere Gemini-Oberfläche, erfordern aber einen expliziten Modellbezeichner und akzeptieren Parameter, die spezifisch für den agentischen Loop sind.

Queue-and-Callback-Muster statt Streaming-Antworten einplanen. Der Agent produziert während eines Laufs Zwischenfortschritts-Updates, aber die endgültige Synthese kommt am Ende. Latenz im Bereich von 30 bis 90 Sekunden ist typisch für diese Pro-Stufe bei moderaten Fragen.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen die regionale Vertex-AI-Dokumentation konsultieren.

Wann Sie es einsetzen sollten

Greifen Sie zu Deep Research Pro Preview (Dezember 2025), wenn:

Sie einen bestehenden Workload haben, der gegen diesen spezifischen Snapshot validiert ist.
Stabiles Agent-Loop-Verhalten über Monate für Ihren Anwendungsfall wichtig ist.
Eine Migration zu den neueren April-2026-Previews noch nicht budgetiert oder gerechtfertigt ist.

Wählen Sie etwas anderes, wenn:

Sie 2026 eine Deep-Research-Stufe neu auswählen. Die April-2026-Basis-Preview oder Max-Preview ist in der Regel der bessere Ausgangspunkt.
Der Workload Tiefe erfordert, die über das Pro-Niveau hinausgeht. Wechseln Sie zu Max.
Der Workload durch die schnellere Basis-Stufe ausreichend bedient würde. Wechseln Sie nach unten.
Der Anwendungsfall etwas anderes als buchstäbliche Recherche-Synthese mit Zitaten ist.

Zusammenfassung: Ein verankerbarer Pro-Tier-Snapshot von Ende 2025, der noch seinen Job macht. Für Neubauten sind die April-2026-Previews in der Regel die bessere Wahl. Für bestehende Deployments gibt es selten einen starken Qualitätsgrund für eine Migration.

Testen Sie es mit einer echten Recherchefrage unter /live-test und vergleichen es mit den neueren Preview-Stufen derselben Familie.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

21. Juni 2026 · 04:52 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026