Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 3.1 Pro Preview

Tier C — Especialista · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 3.1 Pro Preview es un modelo de lenguaje grande desarrollado por Google como parte de la familia de modelos Gemini. Este modelo representa un lanzamiento de vista previa experimental en la generación 3.1, posicionado entre los modelos de producción estándar de Google y las variantes de investigación de vanguardia. Está diseñado para tareas de generación de texto de propósito general, incluyendo comprensión del lenguaje natural, razonamiento, creación de contenido y aplicaciones conversacionales. La característica técnica más notable del modelo es su ventana de contexto de 1,048,576 tokens, equivalente a aproximadamente un millón de tokens de capacidad de procesamiento. Esta longitud de contexto extendida permite al modelo manejar cantidades sustanciales de información en una sola interacción, haciéndolo adecuado para tareas que involucran documentos extensos, bases de código amplias o conversaciones que requieren contexto histórico significativo. El modelo proporciona capacidades estándar de generación de texto sin características multimodales como procesamiento de imágenes o llamadas a funciones. Dentro de la línea de modelos de Google, Gemini 3.1 Pro Preview sirve como una oferta intermedia que permite a desarrolladores e investigadores probar capacidades más recientes antes de que alcancen disponibilidad general. Como lanzamiento de vista previa, puede exhibir características de rendimiento diferentes en comparación con modelos de producción estables y podría estar sujeto a cambios o mejoras basadas en retroalimentación de usuarios. El modelo está destinado a usuarios que requieren ventanas de contexto grandes para aplicaciones basadas en texto y están dispuestos a trabajar con tecnología en fase de vista previa.

Gemini 3.1 Pro Preview ofrece una ventana de contexto excepcional de un millón de tokens, posicionándose como herramienta experimental para aplicaciones que demandan procesamiento masivo de texto.

Resumen de benchmarks Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9514 runs
1188277243575941752505-2705-31ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

50
Generación de código
29
Multilingüe
15
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 3.1 Pro Preview
$2.00 por 1M de tokens de entrada
$12.00 por 1M de tokens de salida
≈ $0.0036 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.00
por 1M de tokens de salida$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)132 / avg 127
16795

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Ventana de contexto de 1M tokensProcesa documentos extremadamente largosMantiene conversaciones extensas con historial completoAnaliza bases de código completasAcceso anticipado a capacidades experimentalesRespaldo del ecosistema Google CloudIdeal para investigación y análisis profundoCompresión eficiente de información contextual

Debilidades

Versión preview con posibles cambiosSin capacidades multimodalesSin function calling ni herramientasClasificación Tier C en rendimiento
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Sección 07

Preguntas frecuentes

Con 1,048,576 tokens de contexto, puede procesar libros completos, repositorios de código extensos, transcripciones largas o múltiples documentos técnicos simultáneamente. Esto equivale aproximadamente a 700,000-800,000 palabras dependiendo del idioma.

Para equipos dispuestos a trabajar con tecnología preview que necesiten análisis de documentos extensos o conversaciones de larga duración, este modelo entrega capacidad de contexto sin paralelo en su categoría.

Análisis editorial Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=1

Últimos 30 días

100.0%

n=1

Tiempo de respuesta mediano

16,761ms

n=1

Basado en 6 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

1

Respuestas OK (30d)

1

Total de llamadas (7d)

1

Respuestas OK (7d)

1

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-548/100 · 76 runs
30 correct8 partial38 wrong39% accuracy
2026-06-14

Gemini 3.1 Pro Preview adds multimodal capabilities without benchmarks

Gemini 3.1 Pro Preview has undergone a significant expansion in capabilities since the previous evaluation period. The model now supports a comprehensive suite of features including vision, audio input, PDF processing, reasoning modes, and structured output formats through both JSON mode and JSON schema. Tool calling and prompt caching have also been added to the platform's feature set. However, no benchmark performance data is available for either the current or previous evaluation windows, making it impossible to assess the model's actual performance on standard tasks or compare quality metrics across time. The addition of multimodal inputs represents a substantial architectural evolution, positioning the model to handle diverse use cases from document analysis to audio processing. Users should note that while the capability expansion is impressive on paper, the absence of benchmark results means performance characteristics remain unvalidated. For production deployments, organizations will need to conduct their own evaluations to understand how these new capabilities perform in practice and whether quality has been maintained, improved, or degraded during this significant feature expansion.

Quality

Latency p50

Test runs

0

Vision and audio input added PDF processing now supported Structured output modes available No benchmark data available
Sección 10

Perfil completo del modelo

Gemini 3.1 Pro Preview — illustration 1
Gemini 3.1 Pro Preview: el tier superior de próxima generación

Nota — perfil prospectivo. Gemini 3.1 Pro Preview (gemini-3.1-pro-preview) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general.

La entrada de tier superior de próxima generación en la familia Gemini de Google. Una ventana de contexto de 1 048 576 tokens. Entrada de texto e imagen. Profundidad de razonamiento que impulsa la línea Pro hacia adelante sobre la generación 2.5 Pro manteniendo la superficie arquitectónica contra la que los equipos de producción han construido.

El encuadre que mejor le aplica a esta vista previa: 3.1 Pro es lo que se elige cuando 2.5 Pro es el modelo de producción en el que se confía pero hay una carga de trabajo específica donde la calidad ha sido el factor limitante. La generación 3.1 cierra parte de esa brecha. Si el cierre justifica la migración desde un despliegue funcional de 2.5 Pro depende de la situación específica.

Qué cambió respecto a 2.5 Pro

La generación 3.1 Pro aporta varias mejoras sobre 2.5 Pro:

  • Razonamiento más agudo en tareas de múltiples pasos. Las cadenas de pensamiento se mantienen coherentes más profundamente, y el modelo tiene menos probabilidades de perder el rastro de las restricciones intermedias en problemas complejos.
  • Mejor calidad de atención en contexto largo en profundidad. La ventana de 1M era utilizable en 2.5 Pro; en 3.1 Pro la calidad de síntesis pasadas las 400k tokens de entrada es notablemente más ajustada.
  • Adherencia mejorada a la salida estructurada en esquemas anidados complejos. Los payloads de llamadas de uso de herramientas son más fiables.
  • Mejor calidad de visión en documentos densos y gráficos complejos.
  • Postura de rechazo más consistente con razonamiento suficientemente visible como para depurar un falso positivo.

Nada de eso es individualmente transformador. El efecto compuesto es un tier superior que hace más de lo que un tier superior debería hacer.

Qué hace bien

La combinación titular permanece igual que en 2.5 Pro: una ventana de contexto de un millón de tokens con calidad de atención que se mantiene en profundidad. La generación 3.1 impulsa ambas dimensiones hacia adelante.

El razonamiento de múltiples pasos es la mejora más visible. Las tareas que 2.5 Pro podía manejar con ingeniería de prompts cuidadosa ahora funcionan con prompts más directos. Las tareas en las que 2.5 Pro no podía aterrizar de forma consistente ahora producen salidas más fiables.

La calidad de visión es mejorada respecto a 2.5 Pro. Capturas de pantalla de documentos, PDFs escaneados, capturas de paneles de control, gráficos, diagramas: gestionados con más cuidado en fuentes densas o complejas. La extracción de tablas es más fiable. La descripción de gráficos incluye estimaciones de magnitud más precisas.

La fiabilidad del uso de herramientas es suficientemente sólida para construir bucles de agentes de producción sin necesidad de parsing defensivo. La mejora sobre 2.5 Pro es incremental más que transformadora, pero importa a escala.

Qué hace mal

Aplican las consideraciones del tier de vista previa. Los límites de tasa, la disponibilidad regional y los comportamientos específicos pueden cambiar antes de la disponibilidad general. Para cargas de trabajo de producción que necesitan un comportamiento estable hoy, 2.5 Pro sigue siendo la opción más conservadora.

La latencia en el tier Pro es mayor que en los tiers Flash, como era de esperar. La generación 3.1 no cambia ese intercambio fundamental; se paga la profundidad de razonamiento en tiempo de reloj.

El coste por llamada en el tier Pro es significativo. Para cargas de trabajo de alto volumen, el argumento para quedarse en Pro depende de si la carga de trabajo genuinamente necesita la calidad del tier superior. Bajar a una variante Flash es a menudo la elección correcta para casos de uso sensibles al coste.

El despliegue auto-alojado no está disponible. Google no distribuye pesos Gemini. Para cargas de trabajo que necesitan on-premise, la encuesta de pesos abiertos en /usecases/local es el punto de partida correcto.

Su posición frente al campo

Frente a instantáneas Pro anteriores —2.5 Pro—: la vista previa 3.1 es la actualización natural para nuevas construcciones donde el comportamiento del tier de vista previa es aceptable. Para despliegues de producción existentes en 2.5 Pro, el argumento de migración depende de si las mejoras importan para la carga de trabajo específica.

Frente a la línea 3 Pro Preview: la vista previa 3 Pro es la oferta Pro de tier más amplia de la generación 3.x; 3.1 Pro es un refinamiento sobre ella. Para cargas de trabajo que se benefician de las capacidades más recientes, 3.1 Pro es la opción más actual. Para cargas de trabajo donde el comportamiento específico de la vista previa 3 Pro ya ha sido validado, la migración a 3.1 es un salto más pequeño que desde 2.5.

Frente al tier superior de Anthropic: Claude Opus 4.7 ofrece la misma ventana de contexto de 1M con un estilo de razonamiento diferente: más cauteloso, más explícito, más lento. La elección entre Opus 4.7 y 3.1 Pro Preview se reduce a si se quiere el razonamiento cuidadoso al estilo Opus o la salida más rápida de Gemini con gestión multimodal sólida.

Frente al tier superior de OpenAI: GPT-5 compite en razonamiento y a menudo es más rápido en prompts cortos. La vista previa 3.1 Pro gana en multimodalidad nativa más allá de imágenes y en que la ventana de contexto de 1M es significativamente utilizable para síntesis.

El panorama por categorías está en /benchmarks/leaderboard y las puntuaciones por categoría en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Cargas de trabajo de producción que necesitan un comportamiento estable hoy. Use 2.5 Pro hasta que la línea 3.x alcance la disponibilidad general.

Clasificación barata de alto volumen. La computación del tier superior es el gasto con la forma equivocada para enviar millones de prompts cortos. Baje a una variante Flash.

Voz conversacional en tiempo real. Sin entrada de audio nativa. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Generación de código donde la mejor adaptación al IDE importa más que la profundidad de razonamiento. El modelo es competente en código pero no está especializado. La encuesta de modelos en /usecases/code cubre las alternativas.

Cualquier cosa que necesite respuesta sub-segundo en entradas largas. La latencia en profundidad en la ventana de contexto es real; para aplicaciones con sensibilidad al tiempo, un modelo más pequeño con caché puede encajar mejor.

En qué difiere de 3.1 Pro Preview Custom Tools

La variante Custom Tools de 3.1 Pro Preview añade capacidades especializadas de uso de herramientas para cargas de trabajo que dependen en gran medida de la integración estructurada de herramientas. Para cargas de trabajo donde el comportamiento estándar de uso de herramientas es suficiente, esta variante base es el punto de partida correcto. Para cargas de trabajo que necesitan la integración especializada de herramientas, la variante Custom Tools es la opción.

Notas de despliegue

API estándar de Google Gemini. REST, streaming, uso de herramientas, salida estructurada: todo se comporta como se espera para la superficie de capacidad del tier Pro. La integración con las herramientas más amplias de Vertex AI para monitoreo, registro y controles de seguridad es limpia.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región. Para restricciones estrictas de residencia, la documentación regional de Vertex AI es la referencia correcta.

Los precios del tier de vista previa no deben ser la base para la modelización de costes a largo plazo. La estructura de precios en la disponibilidad general puede diferir de las tarifas del tier de vista previa.

Los límites de tasa y la estabilidad del comportamiento son las principales consideraciones operacionales durante la vista previa. Los planes de migración de producción deben tener en cuenta la posibilidad de cambios de comportamiento antes de la disponibilidad general.

Cuándo elegirlo

Use Gemini 3.1 Pro Preview cuando:

  • Explore las capacidades del tier superior de próxima generación para futuro despliegue en producción.
  • La carga de trabajo estaba limitada por 2.5 Pro en profundidad de razonamiento o síntesis de contexto largo.
  • Los límites de tasa del tier de vista previa y las consideraciones de comportamiento sean aceptables para su forma de tráfico.
  • Ya esté en el stack de Google.

Elija otra opción cuando:

  • Necesite un comportamiento estable en producción hoy. Use 2.5 Pro.
  • La carga de trabajo sería adecuadamente atendida por una variante Flash. Baje para reducir coste.
  • El trabajo requiere entrada nativa de audio, voz en tiempo real o vídeo.
  • Necesite consistencia de rechazo que coincida con el estilo Opus de Anthropic. Consulte Opus.

El resumen: sólida instantánea del tier Pro de próxima generación que avanza de forma significativa sobre 2.5 Pro. Para exploración del tier de vista previa y diseño prospectivo, es el punto de partida correcto. Para despliegues estables en producción hoy, 2.5 Pro sigue siendo la opción conservadora hasta que la línea 3.x alcance la disponibilidad general.

Ejecute los mismos prompts en 2.5 Pro y 3.1 Pro Preview en /live-test. Las diferencias son más claras en comparación directa con su propia carga de trabajo.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview — illustration 2
Última prueba automática
14 jun 2026 · 04:55 UTC · Benchmark
Latencia P50
6937 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026