¿Qué significa que sea una versión preview?

Como modelo experimental, puede experimentar cambios en comportamiento, rendimiento o disponibilidad mientras Google refina sus capacidades. No se recomienda para aplicaciones de producción críticas que requieran estabilidad garantizada.

¿Puedo usar este modelo para análisis de imágenes o PDFs con gráficos?

No, este modelo solo procesa texto. Para análisis multimodal de imágenes, diagramas o PDFs visuales, necesitarás modelos de la familia Gemini con capacidades de visión.

¿Cómo se compara con otros modelos Gemini en cuanto a razonamiento?

Con clasificación Tier C, ofrece capacidades de razonamiento competentes pero no está al nivel de los modelos más avanzados de Google. Su ventaja principal es la capacidad de contexto, no necesariamente la calidad de razonamiento puro.

¿Para qué casos de uso está optimizado este modelo?

Sobresale en revisión de documentación técnica extensa, análisis de código completo, investigación con múltiples fuentes, resúmenes de conversaciones largas y cualquier tarea donde el volumen de contexto sea más importante que capacidades multimodales.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

Google Gemini

Gemini 3.1 Pro Preview

Tier C — Especialista · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Gemini 3.1 Pro Preview es un modelo de lenguaje grande desarrollado por Google como parte de la familia de modelos Gemini. Este modelo representa un lanzamiento de vista previa experimental en la generación 3.1, posicionado entre los modelos de producción estándar de Google y las variantes de investigación de vanguardia. Está diseñado para tareas de generación de texto de propósito general, incluyendo comprensión del lenguaje natural, razonamiento, creación de contenido y aplicaciones conversacionales. La característica técnica más notable del modelo es su ventana de contexto de 1,048,576 tokens, equivalente a aproximadamente un millón de tokens de capacidad de procesamiento. Esta longitud de contexto extendida permite al modelo manejar cantidades sustanciales de información en una sola interacción, haciéndolo adecuado para tareas que involucran documentos extensos, bases de código amplias o conversaciones que requieren contexto histórico significativo. El modelo proporciona capacidades estándar de generación de texto sin características multimodales como procesamiento de imágenes o llamadas a funciones. Dentro de la línea de modelos de Google, Gemini 3.1 Pro Preview sirve como una oferta intermedia que permite a desarrolladores e investigadores probar capacidades más recientes antes de que alcancen disponibilidad general. Como lanzamiento de vista previa, puede exhibir características de rendimiento diferentes en comparación con modelos de producción estables y podría estar sujeto a cambios o mejoras basadas en retroalimentación de usuarios. El modelo está destinado a usuarios que requieren ventanas de contexto grandes para aplicaciones basadas en texto y están dispuestos a trabajar con tecnología en fase de vista previa.

Gemini 3.1 Pro Preview ofrece una ventana de contexto excepcional de un millón de tokens, posicionándose como herramienta experimental para aplicaciones que demandan procesamiento masivo de texto.
— Resumen de benchmarks Tokonomix

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

Multilingüe

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini 3.1 Pro Preview

$2.00 por 1M de tokens de entrada

$12.00 por 1M de tokens de salida

≈ $0.0036 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$2.00

por 1M de tokens de salida$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Ventana de contexto de 1M tokensProcesa documentos extremadamente largosMantiene conversaciones extensas con historial completoAnaliza bases de código completasAcceso anticipado a capacidades experimentalesRespaldo del ecosistema Google CloudIdeal para investigación y análisis profundoCompresión eficiente de información contextual

Debilidades

Versión preview con posibles cambiosSin capacidades multimodalesSin function calling ni herramientasClasificación Tier C en rendimiento

Sección 04

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536

Sección 05

Preguntas frecuentes

Con 1,048,576 tokens de contexto, puede procesar libros completos, repositorios de código extensos, transcripciones largas o múltiples documentos técnicos simultáneamente. Esto equivale aproximadamente a 700,000-800,000 palabras dependiendo del idioma.

Para equipos dispuestos a trabajar con tecnología preview que necesiten análisis de documentos extensos o conversaciones de larga duración, este modelo entrega capacidad de contexto sin paralelo en su categoría.
— Análisis editorial Tokonomix

Sección 06

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

—

Últimos 30 días

100.0%

n=7

Tiempo de respuesta mediano

9,783ms

n=7

Basado en 27 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-548/100 · 116 runs

43 correct17 partial56 wrong37% accuracy

● 2026-07-26

Gemini 3.1 Pro Preview: Still no benchmark data available

Gemini 3.1 Pro Preview continues to show no benchmark results in this evaluation window, maintaining the same data gap observed previously. The model retains its expanded capability set including tools, vision, JSON mode, PDF input, reasoning, audio input, JSON schema support, and prompt caching. Without performance metrics, it remains impossible to assess how this model compares to other frontier models across key dimensions like reasoning accuracy, coding proficiency, or instruction following. The absence of benchmark data prevents meaningful comparison with competing models from Anthropic, OpenAI, or other providers. Users considering this model should be aware that its actual performance characteristics across standard evaluation tasks remain unquantified. The model's expanded modality support suggests versatility for multimodal applications, but without empirical validation through established benchmarks, claims about capability levels cannot be substantiated. Organizations requiring documented performance profiles for model selection should note this data limitation. Until benchmark results become available, adoption decisions must rely on direct testing rather than comparative performance analysis.

Quality

—

Latency p50

—

Test runs

✗ No benchmark data available

Sección 08

Perfil completo del modelo

Gemini 3.1 Pro Preview: el tier superior de próxima generación

Nota — perfil prospectivo. Gemini 3.1 Pro Preview (gemini-3.1-pro-preview) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general.

La entrada de tier superior de próxima generación en la familia Gemini de Google. Una ventana de contexto de 1 048 576 tokens. Entrada de texto e imagen. Profundidad de razonamiento que impulsa la línea Pro hacia adelante sobre la generación 2.5 Pro manteniendo la superficie arquitectónica contra la que los equipos de producción han construido.

El encuadre que mejor le aplica a esta vista previa: 3.1 Pro es lo que se elige cuando 2.5 Pro es el modelo de producción en el que se confía pero hay una carga de trabajo específica donde la calidad ha sido el factor limitante. La generación 3.1 cierra parte de esa brecha. Si el cierre justifica la migración desde un despliegue funcional de 2.5 Pro depende de la situación específica.

Qué cambió respecto a 2.5 Pro

La generación 3.1 Pro aporta varias mejoras sobre 2.5 Pro:

Razonamiento más agudo en tareas de múltiples pasos. Las cadenas de pensamiento se mantienen coherentes más profundamente, y el modelo tiene menos probabilidades de perder el rastro de las restricciones intermedias en problemas complejos.
Mejor calidad de atención en contexto largo en profundidad. La ventana de 1M era utilizable en 2.5 Pro; en 3.1 Pro la calidad de síntesis pasadas las 400k tokens de entrada es notablemente más ajustada.
Adherencia mejorada a la salida estructurada en esquemas anidados complejos. Los payloads de llamadas de uso de herramientas son más fiables.
Mejor calidad de visión en documentos densos y gráficos complejos.
Postura de rechazo más consistente con razonamiento suficientemente visible como para depurar un falso positivo.

Nada de eso es individualmente transformador. El efecto compuesto es un tier superior que hace más de lo que un tier superior debería hacer.

Qué hace bien

La combinación titular permanece igual que en 2.5 Pro: una ventana de contexto de un millón de tokens con calidad de atención que se mantiene en profundidad. La generación 3.1 impulsa ambas dimensiones hacia adelante.

El razonamiento de múltiples pasos es la mejora más visible. Las tareas que 2.5 Pro podía manejar con ingeniería de prompts cuidadosa ahora funcionan con prompts más directos. Las tareas en las que 2.5 Pro no podía aterrizar de forma consistente ahora producen salidas más fiables.

La calidad de visión es mejorada respecto a 2.5 Pro. Capturas de pantalla de documentos, PDFs escaneados, capturas de paneles de control, gráficos, diagramas: gestionados con más cuidado en fuentes densas o complejas. La extracción de tablas es más fiable. La descripción de gráficos incluye estimaciones de magnitud más precisas.

La fiabilidad del uso de herramientas es suficientemente sólida para construir bucles de agentes de producción sin necesidad de parsing defensivo. La mejora sobre 2.5 Pro es incremental más que transformadora, pero importa a escala.

Qué hace mal

Aplican las consideraciones del tier de vista previa. Los límites de tasa, la disponibilidad regional y los comportamientos específicos pueden cambiar antes de la disponibilidad general. Para cargas de trabajo de producción que necesitan un comportamiento estable hoy, 2.5 Pro sigue siendo la opción más conservadora.

La latencia en el tier Pro es mayor que en los tiers Flash, como era de esperar. La generación 3.1 no cambia ese intercambio fundamental; se paga la profundidad de razonamiento en tiempo de reloj.

El coste por llamada en el tier Pro es significativo. Para cargas de trabajo de alto volumen, el argumento para quedarse en Pro depende de si la carga de trabajo genuinamente necesita la calidad del tier superior. Bajar a una variante Flash es a menudo la elección correcta para casos de uso sensibles al coste.

El despliegue auto-alojado no está disponible. Google no distribuye pesos Gemini. Para cargas de trabajo que necesitan on-premise, la encuesta de pesos abiertos en /usecases/local es el punto de partida correcto.

Su posición frente al campo

Frente a instantáneas Pro anteriores —2.5 Pro—: la vista previa 3.1 es la actualización natural para nuevas construcciones donde el comportamiento del tier de vista previa es aceptable. Para despliegues de producción existentes en 2.5 Pro, el argumento de migración depende de si las mejoras importan para la carga de trabajo específica.

Frente a la línea 3 Pro Preview: la vista previa 3 Pro es la oferta Pro de tier más amplia de la generación 3.x; 3.1 Pro es un refinamiento sobre ella. Para cargas de trabajo que se benefician de las capacidades más recientes, 3.1 Pro es la opción más actual. Para cargas de trabajo donde el comportamiento específico de la vista previa 3 Pro ya ha sido validado, la migración a 3.1 es un salto más pequeño que desde 2.5.

Frente al tier superior de Anthropic: Claude Opus 4.7 ofrece la misma ventana de contexto de 1M con un estilo de razonamiento diferente: más cauteloso, más explícito, más lento. La elección entre Opus 4.7 y 3.1 Pro Preview se reduce a si se quiere el razonamiento cuidadoso al estilo Opus o la salida más rápida de Gemini con gestión multimodal sólida.

Frente al tier superior de OpenAI: GPT-5 compite en razonamiento y a menudo es más rápido en prompts cortos. La vista previa 3.1 Pro gana en multimodalidad nativa más allá de imágenes y en que la ventana de contexto de 1M es significativamente utilizable para síntesis.

El panorama por categorías está en /benchmarks/leaderboard y las puntuaciones por categoría en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Cargas de trabajo de producción que necesitan un comportamiento estable hoy. Use 2.5 Pro hasta que la línea 3.x alcance la disponibilidad general.

Clasificación barata de alto volumen. La computación del tier superior es el gasto con la forma equivocada para enviar millones de prompts cortos. Baje a una variante Flash.

Voz conversacional en tiempo real. Sin entrada de audio nativa. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Generación de código donde la mejor adaptación al IDE importa más que la profundidad de razonamiento. El modelo es competente en código pero no está especializado. La encuesta de modelos en /usecases/code cubre las alternativas.

Cualquier cosa que necesite respuesta sub-segundo en entradas largas. La latencia en profundidad en la ventana de contexto es real; para aplicaciones con sensibilidad al tiempo, un modelo más pequeño con caché puede encajar mejor.

En qué difiere de 3.1 Pro Preview Custom Tools

La variante Custom Tools de 3.1 Pro Preview añade capacidades especializadas de uso de herramientas para cargas de trabajo que dependen en gran medida de la integración estructurada de herramientas. Para cargas de trabajo donde el comportamiento estándar de uso de herramientas es suficiente, esta variante base es el punto de partida correcto. Para cargas de trabajo que necesitan la integración especializada de herramientas, la variante Custom Tools es la opción.

Notas de despliegue

API estándar de Google Gemini. REST, streaming, uso de herramientas, salida estructurada: todo se comporta como se espera para la superficie de capacidad del tier Pro. La integración con las herramientas más amplias de Vertex AI para monitoreo, registro y controles de seguridad es limpia.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región. Para restricciones estrictas de residencia, la documentación regional de Vertex AI es la referencia correcta.

Los precios del tier de vista previa no deben ser la base para la modelización de costes a largo plazo. La estructura de precios en la disponibilidad general puede diferir de las tarifas del tier de vista previa.

Los límites de tasa y la estabilidad del comportamiento son las principales consideraciones operacionales durante la vista previa. Los planes de migración de producción deben tener en cuenta la posibilidad de cambios de comportamiento antes de la disponibilidad general.

Cuándo elegirlo

Use Gemini 3.1 Pro Preview cuando:

Explore las capacidades del tier superior de próxima generación para futuro despliegue en producción.
La carga de trabajo estaba limitada por 2.5 Pro en profundidad de razonamiento o síntesis de contexto largo.
Los límites de tasa del tier de vista previa y las consideraciones de comportamiento sean aceptables para su forma de tráfico.
Ya esté en el stack de Google.

Elija otra opción cuando:

Necesite un comportamiento estable en producción hoy. Use 2.5 Pro.
La carga de trabajo sería adecuadamente atendida por una variante Flash. Baje para reducir coste.
El trabajo requiere entrada nativa de audio, voz en tiempo real o vídeo.
Necesite consistencia de rechazo que coincida con el estilo Opus de Anthropic. Consulte Opus.

El resumen: sólida instantánea del tier Pro de próxima generación que avanza de forma significativa sobre 2.5 Pro. Para exploración del tier de vista previa y diseño prospectivo, es el punto de partida correcto. Para despliegues estables en producción hoy, 2.5 Pro sigue siendo la opción conservadora hasta que la línea 3.x alcance la disponibilidad general.

Ejecute los mismos prompts en 2.5 Pro y 3.1 Pro Preview en /live-test. Las diferencias son más claras en comparación directa con su propia carga de trabajo.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:26 UTC · Benchmark

Latencia P50

4955 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026