¿Por qué el contexto es solo 8K tokens?

La integración de audio output reduce la ventana disponible para texto; es una limitación arquitectónica de esta variante preview.

¿Se puede usar en producción?

Al ser preview, está orientado a evaluación y desarrollo; para producción se recomienda esperar la versión estable.

¿Qué idiomas soporta la síntesis de voz?

Al ser un preview de Google, es esperable soporte multilingüe, aunque las especificaciones definitivas aún no están publicadas.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Google Gemini

Gemini 2.5 Pro Preview TTS

Tier B — Producción · 8K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Gemini 2.5 Pro Preview TTS es una variante con capacidad de texto a voz del modelo de lenguaje Gemini 2.5 Pro de Google. Esta versión preliminar integra la síntesis de voz directamente en el flujo de salida del modelo, permitiéndole generar respuestas de audio habladas junto con —o en lugar de— el texto estándar. El modelo mantiene la arquitectura central y las capacidades de razonamiento de la serie Gemini 2.5 Pro, sumando funcionalidad nativa de salida de audio. Opera con una ventana de contexto de 8,000 tokens, adecuada para conversaciones de tamaño moderado y procesamiento de documentos, aunque más limitada que las ofertas de contexto extendido de Google. El modelo está diseñado para aplicaciones que requieren tanto comprensión del lenguaje natural como entrega de respuestas por voz, como asistentes conversacionales, herramientas de accesibilidad, sistemas interactivos de voz y aplicaciones multimodales donde la salida de audio mejora la experiencia del usuario. Admite tareas estándar de generación de texto, incluyendo respuesta a preguntas, resumen, creación de contenido y razonamiento, con la capacidad adicional de entregar resultados mediante voz sintetizada. Dentro de la línea Gemini de Google, este modelo ocupa una posición especializada como oferta en fase preliminar que demuestra la integración de capacidades TTS con los modelos de lenguaje de nivel Pro de la compañía. Se sitúa junto a otras variantes de Gemini 2.5 enfocadas en diferentes modalidades o características de rendimiento. Al tratarse de una versión preliminar, ofrece a los desarrolladores acceso temprano a la funcionalidad combinada de lenguaje y voz, aunque puede presentar limitaciones o características en evolución respecto a los modelos de producción de Google.

Gemini 2.5 Pro Preview TTS integra síntesis de voz directamente en el modelo, eliminando la necesidad de sistemas de texto a voz separados.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini 2.5 Pro Preview TTS

$1.25 por 1M de tokens de entrada

$10.00 por 1M de tokens de salida

≈ $0.0028 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.25

por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Síntesis de voz integrada nativamenteComprensión contextual nivel ProMejora la accesibilidad de aplicacionesConversación con salida de audio directaElimina dependencias de TTS externoIdeal para asistentes de voz contextuales

Debilidades

Versión preview, no producción generalContexto limitado a 8K tokensCaracterísticas pueden cambiar antes del lanzamientoMenor contexto que otros modelos Gemini 2.5

Sección 03

Capacidades

toolssource: litellmvisionjson modejson schemaparallel toolsprompt cachingoutputTokenLimit: 16384max output tokens: 65535

Sección 04

Preguntas frecuentes

Reduce latencia, simplifica la arquitectura del sistema y permite que el modelo module la voz según el contexto conversacional.

Una propuesta interesante para interfaces de voz que necesitan comprensión contextual junto con síntesis de audio nativa.
— Resumen de benchmark Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

● 2026-07-26

Maintains full feature set without performance benchmarks

Gemini 2.5 Pro Preview TTS continues to offer a comprehensive suite of capabilities including tools, vision, JSON mode, JSON schema, parallel tools, and prompt caching. These features remain stable from the previous benchmark window, indicating consistent API functionality. The model maintains its position as a feature-complete offering within the Gemini lineup, supporting multimodal inputs and structured outputs that are essential for production applications. However, the absence of performance metrics across both benchmark windows means users lack quantitative data on speed, accuracy, or quality measures. Without concrete performance numbers, it remains difficult to assess how this model compares to alternatives or to evaluate whether it meets specific use case requirements. Organizations considering this model should conduct their own testing to verify it meets their latency, throughput, and quality standards. The stable feature set suggests reliability in capabilities, but the continued lack of benchmark data prevents a complete assessment of the model's competitive standing or operational characteristics.

Quality

—

Latency p50

—

Test runs

✓ All capabilities remain stable✗ No performance data available

Sección 07

Perfil completo del modelo

Gemini 2.5 Pro Preview TTS: el TTS de alta fidelidad en la línea 2.5

Nota — perfil prospectivo. Gemini 2.5 Pro Preview TTS (gemini-2.5-pro-preview-tts) es una instantánea de vista previa. El comportamiento, el catálogo de voces y los límites de tasa cambiarán antes de la disponibilidad general.

El modelo de texto a voz de tier Pro de la familia 2.5 de Google. Una ventana de prompt de 8 192 tokens dimensionada para lo que el trabajo de TTS realmente necesita: el guion, instrucciones de control opcionales y margen razonable. Salida de audio con el incremento de fidelidad y el control de prosodia que distinguen al tier Pro del hermano de tier Flash.

Esta es síntesis en una dirección. Texto como entrada, audio hablado como salida. Todo lo que sigue trata sobre la calidad de voz, las superficies de control y dónde el tier Pro gana su premium sobre la variante Flash.

Qué hace en realidad

Los mismos primitivos que el TTS de tier Flash: selección de voz de un catálogo curado, control de prosodia opcional mediante instrucciones a nivel de prompt, salida de múltiples hablantes para guiones de diálogo, formato de audio configurable.

Lo que añade el tier Pro:

Mayor calidad de salida de alta fidelidad. El audio tiene patrones de respiración más naturales, transiciones prosódicas más suaves y menos artefactos sintéticos que ocasionalmente aparecen en TTS de tier inferior a escala de formato largo.
Control emocional más fiable. Las instrucciones a nivel de prompt como "hablar con preocupación medida" o "leer esto con entusiasmo tranquilo" funcionan de forma más consistente que en el tier Flash.
Mejor coherencia en formato largo. El audio de múltiples párrafos o múltiples minutos mantiene el carácter y la energía de la voz sin la deriva gradual que a veces muestran los modelos de tier inferior.
Diálogo de múltiples hablantes más consistente. Las voces distintas se mantienen distintas en escenas largas; las características del hablante permanecen estables.

Dónde brilla

Algunas cargas de trabajo donde el tier Pro realmente vale el premium:

Producción de audiolibros donde la consistencia de varias horas y la prosodia natural importan para la experiencia auditiva.
Narración de alto valor de producción para contenido de vídeo, material de marketing y trabajo explicativo.
Drama de audio y ficción interactiva con múltiples personajes y rango emocional.
Narración para contenido que se distribuye a una audiencia amplia donde la calidad afecta directamente al valor de producción percibido.
Aplicaciones de accesibilidad donde la calidad del audio importa para la comodidad de escucha sostenida.

El hermano de tier Flash cubre muchos casos a menor coste. Pro es para los casos donde la diferencia de calidad es suficientemente audible como para justificar la actualización.

Cuándo no es la herramienta adecuada

Cualquier cosa donde la calidad del tier Flash sea suficiente. La mayoría de los casos de uso de corto plazo, transaccionales o de estilo IVR no se benefician de la actualización a Pro.

Voz conversacional en tiempo real. Esta es síntesis, no diálogo bidireccional. Las variantes de audio en tiempo real de Gemini manejan el patrón conversacional de forma más natural.

Reconocimiento de voz o transcripción. Dirección equivocada; familia de modelos equivocada.

Clonación de voz de una persona real específica. El catálogo TTS de Google cubre voces curadas. El trabajo de voz personalizada para individuos específicos requiere proveedores especializados o acuerdos de nivel de contrato.

Edición de audio, diseño de sonido o generación de música. Categorías de herramientas completamente diferentes.

Requisitos de latencia ultra-baja donde cada milisegundo importa. El tier Pro prioriza la calidad sobre la latencia absoluta; para aplicaciones de voz críticas en cuanto a latencia, el tier Flash o los proveedores especializados de baja latencia pueden encajar mejor.

Cómo se compara con las alternativas

Frente al hermano de tier Flash —Gemini 2.5 Flash Preview TTS—: Pro produce una salida notablemente mejor en contenido de formato largo y maneja la matiz emocional de forma más fiable. Flash es más rápido y de menor coste. La elección se reduce a si la diferencia de calidad justifica el premium para su carga de trabajo específica.

Frente a la generación 3.x —Gemini 3.1 Flash TTS Preview—: el preview 3.x muestra refinamientos adicionales y puede eventualmente cerrar la brecha con el tier Pro desde abajo. Por ahora, Pro sigue siendo la opción de mayor fidelidad en la familia.

Frente a alternativas no Google: ElevenLabs y proveedores TTS especializados similares compiten en profundidad del catálogo de voces, clonación de voz y control emocional. Para cargas de trabajo donde importa un carácter de voz específico o una capacidad estilística específica más allá de lo que Google ofrece, los proveedores especializados pueden seguir teniendo ventaja. Para cargas de trabajo en el stack de Google donde la calidad de tier Pro a precios de Google es el intercambio correcto, este modelo es competitivo.

El panorama por categorías de síntesis de audio está en /benchmarks/intelligence y el leaderboard en /benchmarks/leaderboard.

Patrones prácticos

Algunas cosas que vale la pena saber antes de construir específicamente sobre el tier Pro:

El incremento de fidelidad es más claro en contenido de formato largo. Los clips cortos a menudo suenan similares entre Flash y Pro; el contenido de varios minutos revela la diferencia.
Las instrucciones de prosodia funcionan de forma más fiable que en el tier Flash pero siguen beneficiándose de ser específicas. "Hablar con urgencia leve, algo más rápido de lo normal" funciona mejor que "hazlo urgente".
Para el diálogo de múltiples hablantes, etiquete los hablantes con claridad y use etiquetas consistentes a lo largo del guion. El tier Pro mantiene el carácter de la voz mejor en guiones más largos que el tier Flash.
Los formatos de audio y los bitrates deben elegirse en función del uso posterior. WAV preserva la plena fidelidad que produce Pro; los formatos con pérdida descartan parte de eso.
La latencia de generación es mayor que la de Flash. Planifique los patrones de UX en consecuencia.

Idiomas y acentos

El catálogo de voces de tier Pro cubre los principales idiomas europeos con múltiples voces por idioma. El incremento de calidad sobre el tier Flash es más audible en los idiomas donde el catálogo tiene más opciones de voz: inglés, español, francés, alemán, italiano. Los idiomas más pequeños tienen una selección de voz más limitada en ambos tiers.

El cambio de código entre idiomas dentro de un único guion está manejado pero la calidad varía. Para contenido multilingüe, generar cada segmento de idioma por separado y concatenar produce una salida más limpia que depender del modelo para cambiar a mitad del guion.

Para el catálogo de voces más actual y la cobertura de idiomas, consulte la referencia específica del modelo en lugar de depender de la documentación del momento del lanzamiento.

Notas de despliegue

API estándar de Google Gemini con endpoints específicos de TTS. El formato de solicitud difiere de las llamadas de generación de texto: consulte la referencia del modelo para la forma exacta de los parámetros.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región.

El audio generado lleva metadatos de procedencia en línea con los compromisos más amplios de Google en torno al contenido generado por IA. Para cargas de trabajo donde los metadatos importan en cualquier sentido, consulte la documentación actual de la API sobre qué es y no es configurable.

Los precios del tier Pro son más altos que los de Flash, como es de esperar. Para cargas de trabajo de alto volumen, el argumento de coste para Pro depende de si el incremento de calidad audible justifica suficientemente el premium para su caso de uso específico.

Cuándo elegirlo

Use Gemini 2.5 Pro Preview TTS cuando:

Necesite síntesis de voz de máxima calidad en el stack de Google.
La carga de trabajo sea audiolibro, narración de alto valor de producción o drama de audio.
La coherencia del audio de formato largo importe.
El premium de coste sobre Flash esté justificado por el caso de uso.

Elija otra opción cuando:

El caso de uso sea de corto plazo, transaccional o de estilo IVR. Use Flash.
La conversación bidireccional en tiempo real importe. Use las variantes de audio en tiempo real.
La voz o capacidad estilística específica que necesita no está en el catálogo.
La latencia ultra-baja domine el requisito.

El resumen: la actualización de fidelidad y control sobre el TTS de tier Flash para cargas de trabajo donde la diferencia de calidad es suficientemente audible como para justificar el premium. Para trabajo de audio de alto valor de producción en el stack de Google, es el punto de partida correcto.

Pruébelo con un guion real en /live-test. La diferencia Pro-versus-Flash es suficientemente subjetiva como para que deba escucharla en su propio contenido.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

21 jun 2026 · 04:56 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026