¿Es adecuado para análisis legal o financiero?

Las capacidades Pro con contexto de 1M tokens son prometedoras para análisis de documentos extensos en esos sectores.

¿Cómo migrar de preview a producción cuando esté disponible?

Google mantiene compatibilidad de API entre versiones preview y estables; los cambios de migración suelen ser mínimos.

¿Qué ventaja tiene sobre Gemini 2.5 Pro?

El diferenciador principal es el contexto de 1M tokens, frente a las ventanas más pequeñas de otras variantes Pro.

Se ejecuta en:USCreado en:United States

Google Gemini

Lyria 3 Pro Preview

1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Lyria 3 Pro Preview es un modelo de lenguaje de gran escala desarrollado por Google como parte de la plataforma Gemini AI. Este modelo representa una iteración avanzada en la serie de modelos de lenguaje fundacionales de Google, diseñado para aplicaciones empresariales y de investigación que requieren capacidades sofisticadas de comprensión y generación de texto. Se presenta como una versión preliminar, lo que permite a desarrolladores y organizaciones probar sus capacidades antes de una implementación más amplia. El modelo cuenta con una ventana de contexto de 1,048,576 tokens (1M tokens), lo que le permite procesar y mantener la coherencia en documentos, conversaciones o bases de código extremadamente extensas. Esta capacidad ampliada de contexto lo hace especialmente adecuado para tareas que implican análisis exhaustivos de documentos, generación de contenido extenso y aplicaciones que requieren una memoria contextual considerable. Lyria 3 Pro Preview admite capacidades estándar de generación de texto, incluyendo comprensión del lenguaje natural, razonamiento, resumen, respuesta a preguntas y creación de contenido en diversos dominios e idiomas. Dentro de la línea Gemini de Google, Lyria 3 Pro Preview se ubica entre las opciones más capaces, diseñado para usuarios que requieren tanto habilidades avanzadas de razonamiento como la capacidad de trabajar con contextos extensos. Al ser un modelo en versión preliminar, ofrece acceso anticipado a capacidades que podrían orientar futuras versiones de producción. El modelo es accesible a través de la infraestructura de la API de Gemini de Google, integrándose con el ecosistema más amplio de servicios de Google Cloud y herramientas de desarrollo para su despliegue en entornos de producción.

Lyria 3 Pro Preview combina capacidades Pro de razonamiento avanzado con ventana de 1M tokens en una versión de acceso anticipado.
— Resumen de benchmark Tokonomix

Sección 01

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

1 millón de tokens de contextoCapacidades de razonamiento nivel ProAnálisis comprehensivo de documentosOrientado a uso enterpriseIntegración con Google CloudSíntesis de múltiples fuentes largas

Debilidades

Versión preview, cambios esperadosFuncionalidades pueden variarDocumentación aún en desarrolloNo recomendado para sistemas críticos todavía

Sección 02

Capacidades

source: litellmaudio outputoutputTokenLimit: 65536max output tokens: 8192

Sección 03

Preguntas frecuentes

La designación Pro sugiere mayor capacidad de razonamiento; Clip podría ser una variante más ligera dentro de la misma serie.

Para organizaciones que necesitan evaluar modelos enterprise de Google con contexto masivo antes de comprometerse con producción.
— Resumen de benchmark Tokonomix

Sección 04

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-522/100 · 2 runs

0 correct0 partial2 wrong0% accuracy

● 2026-06-14

Audio output capability added; no performance benchmarks available

Lyria 3 Pro Preview by Google Gemini has introduced audio output capability in this benchmark window, marking its first measurable feature addition. However, no performance benchmark data is available for either the current or previous window, making it impossible to assess the model's capabilities across standard evaluation metrics such as reasoning, coding, mathematics, or language understanding. The addition of audio output suggests Google is positioning this model for multimodal applications, potentially competing in the text-to-speech or audio generation space. Without concrete performance numbers, users cannot make informed decisions about whether Lyria 3 Pro Preview meets their requirements for accuracy, speed, or quality. The absence of benchmarks is particularly notable given that this is labeled as a preview release, where early performance indicators would typically guide development priorities and user expectations. Until comprehensive benchmark results become available, potential users should approach this model with caution and conduct their own evaluations for intended use cases. The model's practical utility remains unverified through standardized testing.

Quality

—

Latency p50

—

Test runs

✓ Audio output capability added

Sección 06

Perfil completo del modelo

Lyria 3 Pro Preview: el modelo de música de formato largo de Google

Lyria 3 Pro Preview es la variante de formato largo de la familia de generación de música Lyria 3 de Google. Donde el Clip Preview gestiona fragmentos cortos adecuados para las características de producto, la variante Pro apunta a una salida composicional de longitud completa: pistas suficientemente largas para funcionar como obras musicales independientes en lugar de como bases de contenido.

Para equipos que construyen herramientas creativas, productos de educación musical o cualquier flujo de trabajo donde la generación de música necesite producir algo que pueda reproducirse por sí solo, esta es la superficie que evaluar.

Para qué sirve el modelo

Generación de piezas musicales de longitud completa. Se pasa un prompt de texto describiendo la música deseada y se recibe una salida de audio sustancialmente más larga de la que produce el tier clip, suficientemente larga para una estructura verso-coro, desarrollo temático, secciones de introducción y cierre, y el tipo de arco musical que distingue una canción de un fragmento.

La variante Pro gestiona tres patrones de carga de trabajo que la variante Clip no puede.

Obras musicales independientes para streaming o medios. Pistas pensadas para escucharse como música, no solo como contenido debajo de vídeo o voz. La longitud composicional importa porque la experiencia del oyente es el producto.

Herramientas creativas. Asistentes de composición musical, herramientas de boceto para compositores y productores, productos que convierten prompts del usuario o datos de entrada en piezas musicales completas. La variante Pro es el modelo que estas herramientas envuelven.

Educación y descubrimiento musical. Productos que ayudan a los usuarios a comprender conceptos musicales generando ejemplos —"¿cómo suena la polifonía renacentista aplicada a una melodía moderna?"— necesitan salidas de longitud completa para transmitir la estructura musical que se está enseñando.

Música para contenido narrativo. Música temática para podcasts, banda sonora para cortometrajes, música para bandas sonoras de juegos a escala modesta. La longitud composicional permite que la música sirva un propósito narrativo en lugar de simplemente llenar espacio.

Qué cambia de Clip a Pro

La estructura composicional es el cambio principal. Las salidas Pro tienen tiempo para desarrollar temas, hacer transiciones entre secciones y construir el tipo de arco musical que distingue una canción de un fragmento. El entrenamiento del modelo se orientó alrededor de este patrón de generación de formato más largo, lo que cambia cómo interpreta los prompts.

La sensibilidad al prompt es diferente de la de Clip. Las especificaciones de género, estado de ánimo e instrumentación siguen funcionando, pero las salidas Pro también responden a sugerencias estructurales —"sección de introducción con instrumentación escasa, que se desarrolla hacia un arreglo más completo en la segunda mitad"— de formas que las salidas Clip no pueden acomodar dentro de su presupuesto de longitud.

La latencia de generación es mayor. La generación Pro tarda notablemente más que la generación Clip, que es el intercambio esperado por una salida de formato más largo. Para las características de producto interactivas que necesitan una respuesta rápida, la variante Clip es la elección correcta; para la generación por lotes de pistas independientes, la latencia de Pro es aceptable.

La varianza de calidad de salida es mayor entre generaciones. Cuanto más larga sea la salida, más posibilidades tiene el modelo de desviarse en el ritmo, perder la coherencia temática o producir secciones que no encajan en la pieza general. El patrón pragmático para Pro es generar múltiples candidatos por prompt y seleccionar, en lugar de esperar que cualquier generación individual aterrice con precisión.

Dónde falla

Voces. Igual que Clip: Pro genera únicamente música instrumental. Las pistas que necesitan letras e interpretación vocal requieren superficies de generación vocal dedicadas o intérpretes humanos.

Control composicional barra por barra. La interfaz de prompt de texto no da el tipo de control composicional preciso que proporcionan los flujos de trabajo de producción musical tradicionales. Para música que necesita alcanzar señales específicas en momentos específicos o seguir progresiones armónicas específicas, el flujo de trabajo implica usar la salida generada como material de referencia en lugar de como producto final.

Límites de género. El modelo ha visto datos de entrenamiento amplios pero los géneros nicho específicos producen resultados más variables. Los géneros de música popular occidental convencional se gestionan bien; las tradiciones menos representadas se gestionan con más inconsistencia. Pruebe con prompts reales en sus géneros objetivo antes de comprometerse.

Claridad de derechos de autor. La interfaz de prompt acepta prompts con referencia a artistas pero produce salidas en territorio de derechos de autor incierto. Describir características musicales en lugar de hacer referencia a artistas con derechos de autor específicos es la práctica más segura.

Reproducibilidad. Pedir la misma idea musical dos veces produce dos composiciones relacionadas pero distintas, no la misma composición dos veces. Para flujos de trabajo que necesitan consistencia de carácter o continuación de tema en múltiples piezas, el patrón práctico es generar una vez y luego usar análisis musical o edición de pistas para desarrollar la misma idea más adelante, en lugar de hacer nuevos prompts desde cero.

Frente al campo

El espacio de generación de música de formato largo incluye Suno, Udio y varios esfuerzos de código abierto. Cada uno tiene su temperamento.

Suno y Udio son los líderes orientados al consumidor con sólidas capacidades vocales, amplia cobertura de géneros e interfaces de usuario directas que son populares para el uso creativo. Las alternativas de código abierto como las variantes MusicGen ofrecen opciones auto-alojables para equipos que necesitan control operacional sobre el despliegue.

La posición distintiva de Lyria 3 Pro es la integración con el ecosistema Gemini más amplio de Google y el enfoque en el acceso a la API compatible con la integración en lugar de un producto orientado al consumidor. Para equipos que construyen herramientas que envuelven la generación de música como una característica dentro de un producto más grande, la historia de despliegue primero en API es el camino de menor resistencia. Para productos de creación musical de usuario final, los servicios orientados al consumidor son generalmente más adecuados.

Notas de despliegue

La superficie de la API sigue el patrón estándar de endpoint de Gemini. Prompts de texto como entrada, salida de audio. El mayor tiempo de generación significa que los despliegues de producción deben planificar patrones asíncronos: enviar una solicitud de generación, consultar o recibir un webhook al completarse, obtener la salida cuando esté lista. Los patrones síncronos interactivos funcionan para el uso por lotes pero se vuelven incómodos para las características orientadas al usuario donde el usuario espera en tiempo real.

La moderación de contenido se ejecuta en los prompts de entrada en la capa de solicitud. Las salidas no se filtran post-generación.

El sufijo "preview" merece tomarse en serio para la planificación de producción. Google ha enviado vistas previas que se convirtieron en productos a largo plazo y vistas previas que se reposicionaron o discontinuaron. Para los despliegues con horizontes de varios años, planifique la posibilidad de cambios en la superficie o en la API.

Los formatos de salida siguen las convenciones estándar de contenedor de audio. Las tasas de muestreo y los bitrates son configurables dentro de las restricciones del modelo subyacente.

Para una orientación más amplia sobre el pipeline de generación de música en un stack basado en la nube de Google, la documentación de Gemini cubre los patrones de despliegue circundantes.

Cuándo elegirlo

Use Lyria 3 Pro Preview cuando necesite:

Composiciones musicales de longitud completa con desarrollo estructural.
Herramientas creativas que producen música como salida principal.
Despliegue primero en API en un pipeline basado en la nube de Google.
Música para contenido narrativo donde el arco composicional importa.

Baje a Lyria 3 Clip Preview cuando lo que el caso de uso realmente necesita son bases de contenido breve o estímulos sonoros. Consulte servicios orientados al consumidor como Suno o Udio cuando se requiera capacidad vocal o cuando el objetivo de despliegue sea un producto creativo de usuario final en lugar de una integración de API.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

14 jun 2026 · 04:14 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026