Zum Inhalt
Läuft in:USErstellt in:United States
Google Gemini

Deep Research Preview (Apr-21-2026)

131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Deep Research Preview (21.04.2026) ist ein experimentelles Modell aus Googles Gemini-Familie, das fortgeschrittene Fähigkeiten in der Informationssynthese und im analytischen Denken demonstrieren soll. Das Modell ist darauf spezialisiert, umfassende Recherchen zu komplexen Themen durchzuführen, indem es Anfragen in einzelne Bestandteile zerlegt, relevante Informationen aus verschiedenen Quellen zusammenträgt und die Ergebnisse zu kohärenten, gut strukturierten Antworten zusammenführt. Es wird als Preview-Release positioniert und ermöglicht Entwicklern und Forschern, seine recherche-orientierten Fähigkeiten vor einer breiteren Verfügbarkeit zu erkunden. Das Modell verfügt über ein Kontextfenster von 131.000 Token und kann damit große Informationsmengen verarbeiten und über mehrstufige Rechercheaufgaben hinweg kohärent bleiben. Während es Standard-Textgenerierung unterstützt, ist seine Architektur eher auf iterative Untersuchungsprozesse als auf den allgemeinen konversationellen Einsatz ausgelegt. Diese Spezialisierung erlaubt eine tiefere Analyse von Themen, die systematische Exploration erfordern, ist jedoch möglicherweise nicht die optimale Wahl für alltägliche Textgenerierungsaufgaben. Innerhalb von Googles Gemini-Reihe stellt Deep Research Preview eine auf Recherche spezialisierte Variante dar und kein universelles Flaggschiff-Modell. Es dient als Testumgebung für Techniken im Bereich autonomer Recherche und Informationssynthese, die in künftige Produktivmodelle einfließen könnten. Die Preview-Kennzeichnung weist darauf hin, dass es sich um ein in Entwicklung befindliches System handelt, dessen Fähigkeiten und Verhalten sich ändern können, während Google den zugrunde liegenden Ansatz auf Basis von Nutzerfeedback und Leistungsdaten weiterentwickelt.

Deep Research Preview ist Googles Versuchsfeld für autonome Recherche – ein Modell, das nicht antworten, sondern systematisch untersuchen soll.

Tokonomix Redaktionsnotiz
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Deep Research Preview (Apr-21-2026)
$2.00 pro 1M Input-Tokens
$12.00 pro 1M Output-Tokens
≈ $0.0036 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.00
pro 1M Output-Tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— no change

$12.00

output / 1M

— no change

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Strukturierte Mehrschritt-RechercheZerlegung komplexer FragestellungenSynthese aus mehreren QuellenAnalytisches Schlussfolgern131K Token KontextfensterKohärenz über lange DokumenteFrüher Zugang zu Research-FeaturesGemini-Ökosystem-Integration

Schwächen

Experimenteller Preview-StatusNicht für Standard-Chat optimiertUnklare Modalitäten und Tier-AngabenVerhalten kann sich kurzfristig ändern
Abschnitt 03

Fähigkeiten

outputTokenLimit: 65536
Abschnitt 04

Häufig gestellte Fragen

Nein, der Preview-Status bedeutet, dass sich Verhalten, Verfügbarkeit und API-Schnittstellen ändern können. Für produktive Workloads sollte ein stabiles Gemini-Modell gewählt werden.

Für tiefgehende Recherche-Workflows ein spannender Vorbote, aber als Preview-Release noch kein Fundament für produktive Systeme.

Tokonomix Bewertungsfazit
Abschnitt 05

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

2026-06-14

Deep Research Preview maintains coding strength, math remains weak

Deep Research Preview by Google Gemini shows consistent performance across benchmark windows, with no significant changes in capabilities. The model continues to demonstrate strong coding proficiency with an 86.0% score on LiveCodeBench, maintaining its position as a solid choice for software development tasks. However, mathematical reasoning remains a notable weakness, with scores of 64.8% on MATH-500 and 71.9% on AIME 2024, both unchanged from the previous window. Multi-turn conversation handling shows moderate capability at 59.1% on MMLU, while instruction following on IFEval holds steady at 78.8%. The model handles multilingual tasks adequately with 76.2% on MGSM, and creative writing performance remains at 21.9% on Creative Writing. Overall benchmark average sits at 69.8%, identical to the previous period. This stability suggests a mature model with well-defined strengths in code generation and standard weaknesses in advanced mathematics. Users should leverage this model for coding tasks while being cautious about complex mathematical problem-solving scenarios. The unchanged performance profile makes it a predictable option for teams with established workflows.

Quality

Latency p50

Test runs

0

Coding performance remains strong Math scores still lagging Stable performance across benchmarks
Abschnitt 07

Vollständiges Modellprofil

Deep Research Preview (Apr-21-2026) — illustration 1
Deep Research Preview (April 2026): die Basis-Stufe von Googles Recherche-Stack

Hinweis — zukunftsgerichtetes Profil. Deep Research Preview (deep-research-preview-04-2026) ist der Preview-Snapshot vom April 2026. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern.

Deep Research Preview ist die Basis-Stufe in Googles Deep-Research-Linie. Ein Kontextfenster von 131.072 Token. Sucherweiterte Generierung als Kernfähigkeit — das Modell zieht während seines Laufs Live-Quellen, statt sich ausschließlich auf Trainingsdaten zu stützen, und produziert Zitate für die getroffenen Aussagen.

Dies ist kein Chat-Modell. Es ist auch nicht der schwere Max-Tier-Recherche-Agent. Es sitzt in der Mitte als Such-und-Zitier-Stufe — schneller als Max, gründlicher als ein einfaches Chat-Modell mit angebundenem Such-Tool.

Was es tatsächlich tut

Man gibt ihm eine Frage, die von aktuellen Informationen und expliziten Zitaten profitiert. Es führt eine fokussierte Websuche durch, liest die relevantesten Ergebnisse und produziert eine strukturierte Antwort, die das Quellenmaterial zitiert. Typische Ausgabe:

  • Direkte Antwort auf die Frage.
  • Kurzes unterstützendes Brief, zwei bis fünf Absätze je nach Fragenform.
  • Inline-Zitate zu den verwendeten Quellen.
  • Eine Liste konsultierter Quellen am Ende.

Die Läufe sind schneller als Max-Tier-Deep-Research, und die Ausgabe ist kürzer. Man zahlt für Aktualität und Zitationszuverlässigkeit, nicht für tiefe quellenübergreifende Synthese.

Wo es wirklich nützlich ist

Einige Workloads, für die diese Stufe gut passt:

  • Zeitkritische Fragen, bei denen der Trainings-Cutoff des Modells die richtige Antwort verpassen würde.
  • Zitationspflichtige Ausgaben, bei denen ein Chat-Modell ohne explizites Such-und-Zitier-Tooling entweder Referenzen erfinden oder keine verbindliche Aussage machen würde.
  • Schnelle Nachschläge zu aktueller Dokumentation, Gesetzestexten oder Nachrichten, bei denen der Nutzer die Antwort plus einen Link zur Quelle benötigt.
  • Leichte Recherche, die die Latenzkosten einer Max-Tier-Tiefensynthese nicht rechtfertigt.

Das Muster: Aufgaben, bei denen man sonst drei oder vier Tabs öffnen, zehn Minuten lesen und einen Absatz schreiben würde, passen gut zu diesem Modell. Aufgaben, die eine Stunde Lesen erfordern, sollten zu Max. Aufgaben, bei denen die Antwort bereits in den Trainingsdaten liegt, brauchen keine Sucherweiterung.

Wann es das falsche Werkzeug ist

Konversationsinteraktionen. Wie der Rest der Deep-Research-Familie: Anfrage und Antwort, kein Chat.

Tiefe Synthese über viele Quellen mit widersprüchlichen Belegen. Max-Tier behandelt das besser. Basis-Preview ist schneller, liest aber weniger.

Alles außerhalb buchstäblicher Recherche. Code-Generierung, Debugging, Bildarbeit — falsche Familie.

Workloads bei sehr hohem Volumen. Der Such-und-Zitier-Loop fügt Latenz hinzu und verbraucht mehr Rechenleistung pro Aufruf als eine einfache Chat-Completion. Entsprechend planen.

Vergleich innerhalb der Familie

Die drei Deep-Research-Preview-Snapshots decken verschiedene Punkte auf der Tiefen-versus-Geschwindigkeits-Kurve ab:

  • Deep Research Preview (April 2026) — dieses Modell. Basis-Stufe, schnellste, kürzeste Ausgaben.
  • Deep Research Pro Preview (Dezember 2025) — ältere Pro-Stufe, mehr Tiefe als Basis, etwas älterer Agent-Loop.
  • Deep Research Max Preview (April 2026) — tiefste Stufe, längste Läufe, gründlichste Ausgabe.

Für die meisten Workloads mit der Basis-Preview beginnen. Zu Pro oder Max aufsteigen, wenn man feststellt, dass die Basis-Stufe wichtige Quellen übersieht oder Ausgaben produziert, denen die für den Downstream-Use benötigte Tiefe fehlt.

Vergleich mit anderen sucherweiterten Modellen

Die direktesten Vergleiche sind suchangereicherte Modi bei OpenAIs GPT-5-Familie und Anthropics Claude-Linie mit aktiviertem Websuche-Tooling. Die Form der Ausgabe ist ähnlich: eine Antwort mit Zitaten.

Googles Basis-Deep-Research-Preview neigt dazu, vielfältigere Quellen zu liefern als eine Einzelsuch-Alternative, weil der Agent mehrere gezielte Suchen statt einer breiten durchführt. Die Ausgabe ist standardmäßig strukturierter, aber weniger konversationell als das, was GPT-5 mit Browsing produziert. Claude mit Websuche ist das vorsichtigste, lehnt selbstbewusst ab, wenn Quellen widersprechen, und tendiert zu sichtbarerer Absicherung in der Ausgabe.

Für interaktive Frage-und-Verfeinerungs-Workflows passen Claude oder GPT-5 besser. Für einmalige Fragen, bei denen der Nutzer eine vollständige Antwort mit Zitaten will und bereit ist, 15 bis 40 Sekunden dafür zu warten, ist Deep Research Preview ein starker Standard.

Das Kategorie-Bild finden Sie auf /benchmarks/intelligence und das laufende Leaderboard auf /benchmarks/leaderboard.

Zitationsqualität in der Praxis

Zwei wichtige Punkte zum Verhalten der Zitate:

Erstens: Die Zitate spiegeln den tatsächlichen Quelleninhalt zuverlässig wider. Das Modell neigt nicht dazu, Referenzen zu erfinden, und wenn es eine Passage aus einer Quelle zitiert, ist die Passage in der Regel in dieser Quelle vorhanden. Das ist nicht universell bei sucherweiterten Modellen — manche Konkurrenten erfinden noch gelegentlich plausibel klingende Zitate.

Zweitens: Die Zitationsabdeckung tendiert zu aktuellen und hochfrequentierten Quellen. Wenn die richtige Antwort auf eine Frage in einer kleinen Archiv-Website, einer PDF auf einem Regierungsportal oder einem akademischen Paper liegt, das in der allgemeinen Websuche nicht gut sichtbar ist, ist es weniger wahrscheinlich, dass das Modell sie zieht. Für spezialisierte Forschungsbereiche, bei denen die richtigen Quellen abseits des hochfrequentierten Webs liegen, ist das relevant.

Deployment-Hinweise

Standard-Google-Gemini-API. Die Deep-Research-Modelle teilen die breitere Gemini-Oberfläche, erfordern aber einen expliziten Modellbezeichner und akzeptieren Parameter, die spezifisch für den Such-und-Zitier-Loop sind.

Latenz ist die wichtigste operative Überlegung. Aufrufe dauern typischerweise 15 bis 40 Sekunden, je nach Fragenkomplexität. Das in der UX einplanen — Fortschritt zeigen, Nutzererwartungen setzen, nicht hinter eine synchrone Interaktion setzen, bei der der Nutzer Sub-Sekunden-Antwort erwartet.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar; der Standard-API-Zugang pinnt keine Region. Bei strikten Residenzanforderungen die regionale Vertex-AI-Dokumentation konsultieren.

Wann Sie es einsetzen sollten

Greifen Sie zu Deep Research Preview, wenn:

  • Sie aktuelle Informationen mit expliziten Zitaten benötigen.
  • Die Frage größer ist als ein Einzelsuch-Nachschlag, aber kleiner als ein mehrstündiges Recherche-Brief.
  • Zitationszuverlässigkeit wichtig ist und Sie wollen, dass das Modell sauber ablehnt, wenn Quellen widersprechen, statt selbstsichere Antworten zu erfinden.
  • Latenz im 15-bis-40-Sekunden-Bereich für den Anwendungsfall akzeptabel ist.

Wählen Sie etwas anderes, wenn:

  • Die Frage einen interaktiven Hin-und-Her-Austausch zur Verfeinerung braucht.
  • Sub-Sekunden-Latenz Teil der Anforderung ist.
  • Die Frage tiefe Synthese über viele Quellen erfordert — Max-Tier passt besser.
  • Die Antwort bereits in Trainingsdaten vorliegt und Sucherweiterung nur Latenz ohne Mehrwert hinzufügt.

Zusammenfassung: Solides mittelschweres Recherche-Werkzeug. Schneller als Max, gründlicher als eine Chat-plus-Suche-Alternative, passt zu einer Bandbreite von Workloads, für die es vor dieser Familie keine saubere Antwort gab.

Testen Sie es mit einer aktuellen Frage unter /live-test. Die Zitationsqualität ist das Unterscheidungsmerkmal und lässt sich am einfachsten gegen eigene Fragen bewerten.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Deep Research Preview (Apr-21-2026) — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:54 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026