¿Qué tan grande es su ventana de contexto?

Admite hasta 131.072 tokens, suficiente para mantener coherencia a lo largo de documentos extensos o flujos de investigación con varios pasos intermedios.

¿Es seguro usarlo en producción?

Al tratarse de una vista previa experimental, su comportamiento y capacidades pueden cambiar sin previo aviso. Se recomienda limitarlo a prototipos, evaluaciones internas o entornos donde la variabilidad sea aceptable.

¿Cómo se compara con un modelo Gemini de propósito general?

Deep Research Preview es una variante especializada, no un modelo insignia. Sacrifica versatilidad conversacional a cambio de mayor profundidad en tareas de investigación iterativa.

¿Qué limitaciones técnicas debería considerar un equipo de ingeniería?

Sus capacidades exactas (multimodalidad, herramientas, latencia) no están totalmente documentadas, y al ser preview puede haber cambios de API o comportamiento. Conviene aislar su integración detrás de una capa de abstracción.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Google Gemini

Deep Research Preview (Apr-21-2026)

Tier B — Producción · 131K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Deep Research Preview (21-abr-2026) es un modelo experimental de la familia Gemini de Google, diseñado para demostrar capacidades avanzadas en síntesis de información y razonamiento analítico. Este modelo se especializa en realizar investigaciones exhaustivas sobre temas complejos, descomponiendo las consultas en sus componentes constituyentes, recopilando información relevante de múltiples fuentes y sintetizando los hallazgos en respuestas coherentes y bien estructuradas. Se presenta como un lanzamiento de vista previa, permitiendo a desarrolladores e investigadores explorar sus capacidades orientadas a la investigación antes de una disponibilidad más amplia. El modelo cuenta con una ventana de contexto de 131,000 tokens, lo que le permite procesar y mantener coherencia a través de cantidades sustanciales de información durante tareas de investigación de múltiples pasos. Si bien admite generación de texto estándar, su arquitectura está optimizada para procesos de investigación iterativa en lugar de uso conversacional de propósito general. Esta especialización le permite realizar análisis más profundos sobre temas que requieren exploración sistemática, aunque puede no ser la opción óptima para tareas rutinarias de generación de texto. Dentro de la línea Gemini de Google, Deep Research Preview representa una variante especializada enfocada en investigación en lugar de un modelo insignia de propósito general. Sirve como banco de pruebas para técnicas de investigación autónoma y síntesis de información que pueden informar futuros modelos de producción. La designación de vista previa indica que se trata de un sistema en evolución donde las capacidades y comportamientos pueden cambiar a medida que Google refina el enfoque subyacente basándose en retroalimentación de usuarios y datos de rendimiento.

Deep Research Preview es una apuesta experimental de Google por automatizar la investigación profunda, priorizando la síntesis analítica sobre la conversación general.
— Resumen editorial de Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Deep Research Preview (Apr-21-2026)

$2.00 por 1M de tokens de entrada

$12.00 por 1M de tokens de salida

≈ $0.0036 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$2.00

por 1M de tokens de salida$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— no change

$12.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Investigación profunda multi-pasoDescomposición de consultas complejasSíntesis de múltiples fuentesVentana de 131K tokensRazonamiento analítico estructuradoCoherencia en respuestas extensasAcceso temprano al ecosistema GeminiRespuestas bien organizadas y citables

Debilidades

Estado de vista previa inestableNo óptimo para uso conversacionalCapacidades multimodales no confirmadasDisponibilidad regional limitada

Sección 03

Capacidades

outputTokenLimit: 65536

Sección 04

Preguntas frecuentes

Está pensado para investigación analítica profunda, revisiones de literatura y síntesis de información de múltiples fuentes. No es la mejor opción para chat general ni para generación rápida de texto rutinario.

Una herramienta valiosa para equipos que necesitan exploración sistemática de temas complejos, aunque su naturaleza de vista previa exige cautela en cargas críticas.
— Veredicto de Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

● 2026-06-14

Deep Research Preview maintains coding strength, math remains weak

Deep Research Preview by Google Gemini shows consistent performance across benchmark windows, with no significant changes in capabilities. The model continues to demonstrate strong coding proficiency with an 86.0% score on LiveCodeBench, maintaining its position as a solid choice for software development tasks. However, mathematical reasoning remains a notable weakness, with scores of 64.8% on MATH-500 and 71.9% on AIME 2024, both unchanged from the previous window. Multi-turn conversation handling shows moderate capability at 59.1% on MMLU, while instruction following on IFEval holds steady at 78.8%. The model handles multilingual tasks adequately with 76.2% on MGSM, and creative writing performance remains at 21.9% on Creative Writing. Overall benchmark average sits at 69.8%, identical to the previous period. This stability suggests a mature model with well-defined strengths in code generation and standard weaknesses in advanced mathematics. Users should leverage this model for coding tasks while being cautious about complex mathematical problem-solving scenarios. The unchanged performance profile makes it a predictable option for teams with established workflows.

Quality

—

Latency p50

—

Test runs

✓ Coding performance remains strong✗ Math scores still lagging✓ Stable performance across benchmarks

Sección 07

Perfil completo del modelo

Deep Research Preview (abril de 2026): el tier base del stack de investigación de Google

Nota — perfil prospectivo. Deep Research Preview (deep-research-preview-04-2026) es la instantánea de vista previa de abril de 2026. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general.

Deep Research Preview es el tier base de la línea Deep Research de Google. Una ventana de contexto de 131 072 tokens. La generación aumentada con búsqueda como capacidad principal: el modelo extrae fuentes en tiempo real durante su ejecución en lugar de depender solo de los datos de entrenamiento, y produce citas para las afirmaciones que hace.

No es un modelo de chat. Tampoco es el pesado agente de investigación del tier Max. Se sitúa en el medio como el tier de búsqueda con citas: más rápido que Max, más exhaustivo que un modelo de chat simple con una herramienta de búsqueda añadida.

Qué hace en realidad

Se le da una pregunta que se beneficia de información actual y citas explícitas. Ejecuta una búsqueda web enfocada, lee los resultados más relevantes y produce una respuesta estructurada que cita el material fuente. Salida típica:

Respuesta directa a la pregunta.
Un breve apoyo, de dos a cinco párrafos según la forma de la pregunta.
Citas en línea a las fuentes utilizadas.
Una lista de fuentes consultadas al final.

Las ejecuciones son más rápidas que las del tier Max de Deep Research y la salida es más corta. Se paga por la actualidad y la fiabilidad de las citas en lugar de por una síntesis profunda entre múltiples fuentes.

Dónde resulta genuinamente útil

Algunas cargas de trabajo donde este tier encaja con claridad:

Preguntas con sensibilidad temporal donde la fecha de corte de entrenamiento del modelo dejaría fuera la respuesta correcta.
Salidas que requieren citas, donde un modelo de chat sin herramientas explícitas de búsqueda y citación inventaría referencias o se negaría a comprometerse.
Consultas rápidas sobre documentación actual, texto de política o noticias donde el usuario necesita la respuesta más un enlace a la fuente.
Investigación ligera que no justifica el coste de latencia de la síntesis profunda del tier Max.

El patrón: las tareas donde de otro modo se abrirían tres o cuatro pestañas, se leería durante diez minutos y se escribiría un párrafo encajan bien en este modelo. Las que necesitan una hora de lectura deben ir a Max. Las que ya tienen la respuesta en los datos de entrenamiento no necesitan aumento con búsqueda.

Cuándo no es la herramienta adecuada

Interacciones conversacionales. Como el resto de la familia Deep Research, esto es solicitud y respuesta, no chat.

Síntesis profunda entre múltiples fuentes con evidencia contradictoria. El tier Max lo maneja mejor. La vista previa base es más rápida pero lee menos.

Cualquier cosa fuera de la investigación literal. Generación de código, depuración, trabajo con imágenes: familia equivocada por completo.

Cargas de trabajo de muy alto volumen. El bucle de búsqueda y citación añade latencia y consume más computación por llamada que una simple completación de chat. Planifique en consecuencia.

Cómo se compara dentro de la familia

Las tres instantáneas de vista previa de Deep Research cubren diferentes puntos en la curva profundidad-velocidad:

Deep Research Preview (abril de 2026) — este modelo. Tier base, más rápido, salidas más cortas.
Deep Research Pro Preview (diciembre de 2025) — tier Pro más antiguo, más profundidad que el base, bucle de agente algo más antiguo.
Deep Research Max Preview (abril de 2026) — tier más profundo, ejecuciones más largas, salida más exhaustiva.

Comience con la vista previa base para la mayoría de las cargas de trabajo. Suba a Pro o Max cuando encuentre que el tier base deja fuentes importantes sin leer o produce salidas que carecen de la profundidad que su uso posterior necesita.

Cómo se compara con otros modelos aumentados con búsqueda

Las comparaciones más directas son los modos aumentados con búsqueda en la familia GPT-5 de OpenAI y la línea Claude de Anthropic con herramientas de búsqueda web habilitadas. La forma de la salida es similar: una respuesta con citas.

Deep Research Preview base de Google tiende a extraer fuentes más diversas que una alternativa de llamada de búsqueda única, porque el agente ejecuta múltiples búsquedas dirigidas en lugar de una amplia. La salida es más estructurada por defecto pero menos conversacional que lo que GPT-5 con navegación produce. Claude con búsqueda web es el más cauteloso, rechaza con confianza cuando las fuentes no coinciden y tiende a mostrar más advertencias en la salida.

Para flujos de trabajo de pregunta e iteración interactivos, Claude o GPT-5 encajan mejor. Para preguntas de un solo paso donde el usuario quiere una respuesta completa con citas y está dispuesto a esperar entre quince y cuarenta segundos, Deep Research Preview es un valor predeterminado sólido.

El panorama por categorías está en /benchmarks/intelligence y el leaderboard actualizado en /benchmarks/leaderboard.

Calidad de las citas en la práctica

Dos cosas que hay que saber sobre cómo se comportan las citas:

Primera: las citas rastrean el contenido real de la fuente de forma fiable. El modelo no tiene el hábito de fabricar referencias, y cuando cita un pasaje de una fuente, ese pasaje generalmente está presente en esa fuente. Esto no es universal entre los modelos aumentados con búsqueda; algunos competidores siguen inventando ocasionalmente citas de aspecto plausible.

Segunda: la cobertura de citas se inclina hacia fuentes recientes y de alto tráfico. Si la respuesta correcta a su pregunta vive en un sitio de archivo pequeño, un PDF en un portal gubernamental o un artículo académico que no aparece bien en la búsqueda web general, el modelo tiene menos probabilidades de recuperarlo. Para dominios de investigación especializados donde las fuentes correctas están fuera de la web de alto tráfico, esto importa.

Notas de despliegue

API estándar de Google Gemini. Los modelos Deep Research comparten la superficie Gemini más amplia, pero requieren un identificador de modelo explícito y aceptan parámetros específicos del bucle de búsqueda y citación.

La latencia es la principal consideración operacional. Las llamadas suelen tomar entre quince y cuarenta segundos según la complejidad de la pregunta. Planifique eso en su UX: muestre progreso, establezca expectativas del usuario, no lo ponga detrás de una interacción síncrona donde el usuario espera una respuesta sub-segundo.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise; el acceso a la API estándar no fija una región. Para restricciones estrictas de residencia, consulte la documentación regional de Vertex AI en lugar de depender del comportamiento de la API pública.

Cuándo elegirlo

Use Deep Research Preview cuando:

Necesite información actual con citas explícitas.
La pregunta sea más grande que una búsqueda simple pero más pequeña que un informe de investigación de varias horas.
La fiabilidad de las citas importe y quiera que el modelo rechace con limpieza cuando las fuentes no coinciden en lugar de inventar respuestas confiadas.
Una latencia de entre quince y cuarenta segundos sea aceptable para su caso de uso.

Elija otra opción cuando:

La pregunta necesite un intercambio interactivo para refinarse.
La latencia sub-segundo forme parte del requisito.
La pregunta requiera síntesis profunda entre muchas fuentes: el tier Max encaja mejor.
La respuesta ya está en los datos de entrenamiento y el aumento con búsqueda añade latencia sin valor.

El resumen: herramienta de investigación sólida de peso medio. Más rápida que Max, más exhaustiva que una alternativa de chat con búsqueda, encaja en una franja de cargas de trabajo que no tenía una respuesta limpia antes de que esta familia saliera.

Pruébela con una pregunta de actualidad en /live-test. La calidad de las citas es el diferenciador y es más fácil de evaluar con sus propias preguntas.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

21 jun 2026 · 04:48 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026