Ir al contenido
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 3.1 Flash TTS Preview

8K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 3.1 Flash TTS Preview es un modelo de texto a voz desarrollado por Google como parte de la familia de modelos Gemini. Esta versión preliminar está diseñada para convertir texto escrito en salida de audio hablado, habilitando aplicaciones que requieren capacidades de síntesis de voz. El modelo admite la generación de texto estándar como entrada, procesando indicaciones en lenguaje natural para producir la salida de voz correspondiente. Con una ventana de contexto de 8K tokens, puede gestionar entradas de texto de longitud moderada para su conversión a voz. El modelo representa la exploración por parte de Google de las capacidades multimodales dentro del ecosistema Gemini, ampliándose más allá de las interacciones puramente basadas en texto hacia la generación de audio. Está optimizado para velocidad y eficiencia, como sugiere la denominación "Flash", lo que lo hace adecuado para aplicaciones que requieren respuestas de síntesis de voz relativamente rápidas. La etiqueta TTS Preview indica que se trata de una versión experimental o de acceso anticipado, probablemente sujeta a desarrollo y refinamiento activos en función de los comentarios de los usuarios y las métricas de rendimiento. Dentro de la gama Gemini de Google, este modelo ocupa un nicho especializado centrado en la síntesis de voz en lugar de las capacidades conversacionales o analíticas de los modelos de texto estándar de Gemini. Complementa otras variantes de Gemini al ofrecer a los desarrolladores opciones de salida de audio para sus aplicaciones. El estado preliminar sugiere que puede presentar limitaciones o funciones en evolución en comparación con los modelos listos para producción, y los usuarios deben prever posibles cambios en las capacidades o el comportamiento a medida que Google continúa desarrollando su tecnología de texto a voz.

Gemini Flash-Lite Latest es la variante más ligera y eficiente del catálogo Gemini, con 1M tokens de contexto a bajo costo computacional.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 3.1 Flash TTS Preview
$1.00 por 1M de tokens de entrada
$20.00 por 1M de tokens de salida
≈ $0.0046 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.00
por 1M de tokens de salida$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Mínimo overhead computacional1 millón de tokens de contextoSiempre apunta a la versión más recienteAlta velocidad de respuestaEscalable para alto volumenTareas conversacionales básicas

Debilidades

Capacidad reducida vs Flash estándarNo apto para razonamiento complejoVersión Latest puede cambiar sin avisoAnálisis avanzado limitado
Sección 03

Capacidades

outputTokenLimit: 16384
Sección 04

Preguntas frecuentes

Indica que el identificador siempre apunta a la versión más actualizada del modelo, útil para recibir mejoras automáticas.

El nombre Latest indica que siempre apunta a la versión más reciente, útil para mantener actualizaciones automáticas en producción.

Resumen de benchmark Tokonomix
Sección 05

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

2026-06-14

Gemini 3.1 Flash TTS Preview maintains baseline metrics across windows

Gemini 3.1 Flash TTS Preview shows consistent performance across benchmark windows with no measurable changes in core metrics. The model continues to operate as a text-to-speech solution without available quality, latency, or throughput benchmarks in either the current or previous evaluation periods. This absence of performance data makes it difficult to assess the model's competitive position relative to other TTS offerings in the market. The only detected change between windows relates to pricing updates, though specific performance characteristics remain unmeasured. Users evaluating this model should note that standard benchmarking metrics have not been established, which may complicate technical decision-making for production deployments. The lack of comparative data points across both windows suggests either limited testing coverage or restricted access to performance telemetry. Organizations considering this TTS solution will need to conduct their own evaluations to determine suitability for their specific use cases, as public benchmark data remains unavailable to guide implementation decisions.

Quality

Latency p50

Test runs

0

Stable baseline performance maintained No benchmark metrics available Limited performance transparency
Sección 07

Perfil completo del modelo

Gemini 3.1 Flash TTS Preview — illustration 1
Gemini 3.1 Flash TTS Preview: el texto a voz de próxima generación

Nota — perfil prospectivo. Gemini 3.1 Flash TTS Preview (gemini-3.1-flash-tts-preview) es una instantánea de vista previa. El comportamiento, el catálogo de voces y los límites de tasa cambiarán antes de la disponibilidad general.

El modelo de texto a voz de tier Flash de próxima generación de Google. Una ventana de prompt de 8 192 tokens dimensionada para el guion, instrucciones de control opcionales y margen razonable. Salida de audio con los refinamientos que distinguen la generación 3.1 del hermano 2.5 Flash TTS de producción.

Esta es síntesis en una dirección. Texto como entrada, audio hablado como salida. Todo lo que sigue trata sobre qué hace diferente el TTS de próxima generación frente al 2.5 Flash TTS de producción y cómo se sitúa frente al resto del sector.

Qué cambió respecto al 2.5 Flash Preview TTS

La generación 3.1 Flash aporta varias mejoras sobre la vista previa TTS 2.5 Flash:

  • Prosodia más natural en contenido de formato largo. Los parches de sonido sintético que ocasionalmente aparecían en el audio de varios minutos en la generación 2.5 son menos frecuentes.
  • Mejor control emocional mediante instrucciones a nivel de prompt. La dirección como "hablar con calidez medida" o "leer esto con urgencia tranquila" funciona de forma más fiable y con menos esfuerzo de ingeniería de prompts.
  • Cobertura de idiomas más sólida. El catálogo de idiomas admitidos y la calidad en las voces no anglófonas han avanzado.
  • Diálogo de múltiples hablantes más consistente. Las voces distintas se mantienen distintas en escenas más largas; las características del hablante permanecen estables a través de intercambios prolongados.
  • Gestión más fluida de respiración, pausas y ritmo. El audio suena más como un humano leyendo y menos como un modelo ensamblando fonemas.

Ninguno de esos cambios es individualmente transformador. El efecto compuesto es un TTS de tier Flash que cierra parte de la brecha audible con el tier Pro de la generación 2.5.

Qué hace bien

El trabajo TTS fundamental —síntesis de voz limpia a partir de un guion de texto con latencia razonable— es sólido. La vista previa 3.1 mantiene el perfil de latencia de tier Flash que hizo utilizable la versión 2.5 para aplicaciones interactivas.

El catálogo de voces cubre los principales idiomas europeos con múltiples voces por idioma. La generación 3.1 amplía el catálogo y mejora la calidad en las voces existentes.

El control de prosodia mediante instrucciones a nivel de prompt es más fiable que en la generación 2.5. Se puede describir la entrega deseada y el modelo se ajusta con una fidelidad razonable.

El diálogo de múltiples hablantes funciona con limpieza para guiones con etiquetas de hablante claras. El modelo produce voces distintas por hablante y mantiene las asignaciones a lo largo del guion.

Qué hace mal

Sigue siendo tier de vista previa. Los límites de tasa, la disponibilidad regional y los comportamientos específicos pueden cambiar antes de la disponibilidad general. Para cargas de trabajo de producción que necesitan un comportamiento estable hoy, la vista previa TTS 2.5 Flash sigue siendo la opción más conservadora.

El tier Pro de la generación 2.5 sigue produciendo una salida notablemente mejor en el trabajo de formato largo más exigente. La generación 3.1 Flash cierra la brecha con 2.5 Pro pero no lo iguala.

La clonación de voz de una persona real específica sigue quedando fuera del alcance del catálogo. Para cargas de trabajo que necesitan una voz real específica, los proveedores especializados son la alternativa relevante.

La latencia ultra-baja para aplicaciones de streaming donde cada palabra debe llegar de inmediato sigue siendo una restricción. La latencia del tier Flash es buena pero no instantánea; verifique el perfil contra su caso de uso específico.

Dónde brilla

Algunas cargas de trabajo donde la vista previa TTS 3.1 Flash encaja bien:

  • Narración para contenido de vídeo donde la latencia del tier Flash funciona y la mejora de calidad 3.1 sobre 2.5 importa.
  • Aplicaciones interactivas donde la calidad del TTS casi en tiempo real y la latencia necesitan equilibrarse.
  • Escenas de diálogo de múltiples hablantes donde la generación 3.1 gestiona la consistencia de voz mejor que 2.5.
  • Flujos de trabajo de localización donde el catálogo de idiomas ampliado cubre más mercados objetivo.
  • Sistemas IVR y de respuesta de voz donde la síntesis de sonido moderno importa para la experiencia del usuario.

Cuándo no es la herramienta adecuada

Cargas de trabajo de producción que necesitan un comportamiento estable hoy. Use 2.5 Flash Preview TTS hasta que la línea 3.1 alcance la disponibilidad general.

Trabajo de audiolibro de formato largo de la más alta calidad. La vista previa TTS 2.5 Pro sigue siendo la opción de mayor fidelidad para la producción más exigente.

Reconocimiento de voz o transcripción. Dirección equivocada; familia de modelos equivocada.

Voz conversacional en tiempo real. Esta es síntesis. Las variantes de audio en tiempo real de Gemini manejan el diálogo bidireccional de forma más natural.

Clonación de voz para individuos específicos. Solo selección de catálogo de voces; para voces personalizadas, consulte proveedores especializados.

Generación de música o diseño de sonido. Categorías de herramientas completamente diferentes.

Cómo se compara con las alternativas

Frente al hermano 2.5 Flash Preview TTS: la vista previa 3.1 es la actualización natural para nuevas construcciones. Para despliegues 2.5 Flash existentes, el argumento de migración depende de si las mejoras audibles importan para su carga de trabajo específica y de si el comportamiento del tier de vista previa es aceptable.

Frente al 2.5 Pro Preview TTS: el tier Pro de la generación 2.5 sigue ganando en el trabajo de formato largo más exigente. La vista previa 3.1 Flash cierra la brecha desde abajo. Para calidad de rango medio a coste del tier Flash, 3.1 Flash es cada vez más competitivo con 2.5 Pro.

Frente a alternativas no Google: ElevenLabs y proveedores TTS especializados similares compiten en profundidad del catálogo de voces, capacidades de clonación de voz y control emocional. Para cargas de trabajo donde una capacidad estilística específica más allá del catálogo de Google importa, los proveedores especializados pueden seguir teniendo ventaja. Para cargas de trabajo en el stack de Google donde el coste del tier Flash se combina con calidad de próxima generación, el TTS 3.1 Flash es competitivo.

El panorama por categorías de síntesis de audio está en /benchmarks/intelligence y el leaderboard en /benchmarks/leaderboard.

Patrones prácticos

Algunas cosas que vale la pena saber antes de construir sobre la vista previa TTS 3.1 Flash:

  • Las mejoras sobre 2.5 Flash son más claras en guiones más largos. Los clips cortos a menudo suenan similares entre los dos; el contenido de múltiples párrafos revela la diferencia.
  • Las instrucciones de prosodia funcionan de forma más fiable que en la generación 2.5 pero siguen beneficiándose de ser específicas. "Hablar con urgencia leve, algo más rápido de lo normal" funciona mejor que "hazlo urgente".
  • Para el diálogo de múltiples hablantes, etiquete los hablantes con claridad y consistencia a lo largo del guion. La generación 3.1 mantiene el carácter de la voz mejor en guiones largos.
  • La elección del formato de audio afecta a la calidad audible de las mejoras. WAV preserva la plena fidelidad que produce la generación 3.1; los formatos con pérdida descartan parte de ella.
  • La latencia de generación escala aproximadamente de forma lineal con la longitud del guion. Planifique patrones de UX para reproducción en streaming en lugar de esperar archivos completos.

Notas de despliegue

API estándar de Google Gemini con endpoints específicos de TTS. El formato de solicitud sigue el patrón TTS más amplio en la familia Gemini: consulte la referencia del modelo para la forma de los parámetros.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región.

El audio generado lleva metadatos de procedencia en línea con los compromisos más amplios de Google en torno al contenido generado por IA. Para cargas de trabajo donde esto importa en cualquier sentido, consulte la documentación actual de la API.

Los precios del tier de vista previa no deben ser la base para la modelización de costes a largo plazo. La estructura de precios en la disponibilidad general puede diferir de las tarifas del tier de vista previa.

Cuándo elegirlo

Use Gemini 3.1 Flash TTS Preview cuando:

  • Explore las capacidades TTS del tier Flash de próxima generación para futuro despliegue en producción.
  • La carga de trabajo estaba limitada por la calidad del TTS 2.5 Flash y quiera ver si 3.1 cierra la brecha.
  • Los límites de tasa del tier de vista previa y las consideraciones de comportamiento sean aceptables.
  • El catálogo de idiomas ampliado cubre sus mercados objetivo.

Elija otra opción cuando:

  • Necesite un comportamiento TTS estable en producción hoy. Use 2.5 Flash Preview TTS.
  • La carga de trabajo necesite la más alta fidelidad para la producción de audiolibros de formato largo. Considere 2.5 Pro Preview TTS.
  • El trabajo es transcripción de voz, diálogo bidireccional en tiempo real o clonación de voz.
  • El carácter de voz específico que necesita no está en el catálogo.

El resumen: sólido TTS Flash de próxima generación que refina de forma significativa lo que ofrecía la versión 2.5 Flash. Para exploración del tier de vista previa y diseño prospectivo, es el punto de partida correcto. Para despliegue estable en producción hoy, el TTS 2.5 Flash sigue siendo la opción conservadora.

Pruébelo con un guion real en /live-test. La calidad de voz es suficientemente subjetiva como para que deba escuchar la diferencia 2.5-versus-3.1 en su propio contenido antes de comprometerse.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Flash TTS Preview — illustration 2
Última prueba automática
14 jun 2026 · 04:17 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026