Aller au contenu
Fonctionne en :USCréé en :United States
Google Gemini

Lyria 3 Pro Preview

1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Lyria 3 Pro Preview est un grand modèle de langage développé par Google dans le cadre de la plateforme Gemini AI. Ce modèle constitue une itération avancée de la série de modèles de langage fondamentaux de Google, conçu pour des applications d'entreprise et de recherche nécessitant des capacités sophistiquées de compréhension et de génération de texte. Il est positionné en tant que version preview, permettant aux développeurs et aux organisations de tester ses capacités avant un déploiement plus large. Le modèle dispose d'une fenêtre de contexte de 1,048,576 tokens (1M tokens), lui permettant de traiter et de maintenir la cohérence sur des documents, conversations ou bases de code extrêmement longs. Cette capacité de contexte étendue le rend particulièrement adapté aux tâches impliquant l'analyse exhaustive de documents, la génération de contenus longs et les applications exigeant une mémoire contextuelle substantielle. Lyria 3 Pro Preview prend en charge les capacités standard de génération de texte, notamment la compréhension du langage naturel, le raisonnement, la synthèse, la réponse à des questions et la création de contenu dans divers domaines et langues. Au sein de la gamme Gemini de Google, Lyria 3 Pro Preview figure parmi les offres les plus performantes, conçue pour les utilisateurs nécessitant à la fois des capacités de raisonnement avancées et la possibilité de travailler avec un contexte étendu. En tant que modèle preview, il offre un accès anticipé à des fonctionnalités susceptibles d'orienter les futures versions de production. Le modèle est accessible via l'infrastructure de l'API Gemini de Google, s'intégrant à l'écosystème plus large des services Google Cloud et des outils de développement pour un déploiement en environnement de production.

Lyria 3 Pro Preview combine des capacités Pro avancées avec une fenêtre d un million de tokens pour l analyse entreprise.

Synthèse benchmark Tokonomix
Section 01

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Capacités Pro avancéesFenêtre d un million de tokensAnalyse entreprise approfondieSupport multilingue étenduCompréhension de documents complexesIntégration Google Cloud native

Faiblesses

Statut preview, stabilité variableLatence potentiellement élevéeFonctionnalités documentées partiellementÉvolutions en cours de développement
Section 02

Capacités

source: litellmaudio outputoutputTokenLimit: 65536max output tokens: 8192
Section 03

Questions fréquentes

Oui, ses capacités Pro et sa large fenêtre de contexte le positionnent pour des analyses en profondeur dans les contextes professionnels.

Un modèle preview prometteur pour les organisations qui ont besoin de puissance Pro et d un contexte étendu.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-522/100 · 2 runs
0 correct0 partial2 wrong0% accuracy
2026-06-14

Audio output capability added; no performance benchmarks available

Lyria 3 Pro Preview by Google Gemini has introduced audio output capability in this benchmark window, marking its first measurable feature addition. However, no performance benchmark data is available for either the current or previous window, making it impossible to assess the model's capabilities across standard evaluation metrics such as reasoning, coding, mathematics, or language understanding. The addition of audio output suggests Google is positioning this model for multimodal applications, potentially competing in the text-to-speech or audio generation space. Without concrete performance numbers, users cannot make informed decisions about whether Lyria 3 Pro Preview meets their requirements for accuracy, speed, or quality. The absence of benchmarks is particularly notable given that this is labeled as a preview release, where early performance indicators would typically guide development priorities and user expectations. Until comprehensive benchmark results become available, potential users should approach this model with caution and conduct their own evaluations for intended use cases. The model's practical utility remains unverified through standardized testing.

Quality

Latency p50

Test runs

0

Audio output capability added
Section 06

Profil complet du modèle

Lyria 3 Pro Preview — illustration 1
Lyria 3 Pro Preview : le modèle de musique longue durée de Google

Lyria 3 Pro Preview est la variante longue durée de la famille de génération musicale Lyria 3 de Google. Là où le Clip Preview gère des fragments courts adaptés aux fonctionnalités produit, la variante Pro cible une production compositionnelle complète — des morceaux suffisamment longs pour fonctionner comme des œuvres musicales autonomes plutôt que comme des lits sonores de contenu.

Pour les équipes qui construisent des outils créatifs, des produits d'éducation musicale, ou tout flux de travail où la génération musicale doit produire quelque chose qui peut être écouté de manière autonome, c'est la surface à évaluer.

À quoi sert le modèle

Génération de pièces musicales complètes. Transmettez une invite textuelle décrivant la musique que vous souhaitez et recevez une sortie audio substantiellement plus longue que celle produite par le niveau clip — suffisamment longue pour une structure couplet-refrain, un développement thématique, des sections d'introduction et de conclusion, et le type d'arc musical qui distingue une chanson d'un fragment.

La variante Pro gère trois schémas de charge de travail que la variante Clip ne peut pas traiter.

Œuvres musicales autonomes pour le streaming ou les médias. Morceaux destinés à être écoutés en tant que musique, et non simplement comme contenu sous une vidéo ou un discours. La longueur compositionnelle compte parce que l'expérience d'écoute est le produit.

Outillage créatif. Assistants de composition musicale, outils d'esquisse pour compositeurs et producteurs, produits qui transforment des invites utilisateur ou des données d'entrée en pièces musicales complètes. La variante Pro est le modèle que ces outils encapsulent.

Éducation et découverte musicale. Les produits qui aident les utilisateurs à comprendre les concepts musicaux en générant des exemples — « à quoi ressemble la polyphonie de la Renaissance appliquée à une mélodie moderne ? » — nécessitent des sorties de longueur complète pour transmettre la structure musicale enseignée.

Musique pour contenu narratif. Musique de générique pour podcasts, partition pour courts métrages, musique pour bandes sonores de jeux à échelle modeste. La longueur compositionnelle permet à la musique de servir un objectif narratif plutôt que de simplement remplir l'espace.

Ce qui change entre Clip et Pro

La structure compositionnelle est le changement principal. Les sorties Pro ont le temps de développer des thèmes, de transitionner entre les sections, et de construire le type d'arc musical qui distingue une chanson d'un fragment. L'entraînement du modèle a été façonné autour de ce schéma de génération de forme plus longue, ce qui change la manière dont il interprète les invites.

La sensibilité aux invites est différente de Clip. Les spécifications de genre, d'ambiance et d'instrumentation fonctionnent toujours, mais les sorties Pro répondent également aux indices structurels — « section d'introduction avec instrumentation clairsemée, s'intensifiant vers un arrangement plus complet dans la seconde moitié » — de manières que les sorties Clip ne peuvent pas accommoder dans leur budget de longueur.

La latence de génération est plus élevée. La génération Pro prend significativement plus de temps que la génération Clip, ce qui est le compromis attendu pour une sortie de forme plus longue. Pour les fonctionnalités produit interactives qui nécessitent un retour rapide, la variante Clip est le bon choix ; pour la génération par lots de morceaux autonomes, la latence de Pro est acceptable.

La variance de qualité de sortie est plus élevée entre les générations. Plus la sortie est longue, plus il y a de chances que le modèle dérive dans le rythme, perde la cohérence thématique, ou produise des sections qui ne s'intègrent pas à l'ensemble de la pièce. Le schéma pragmatique pour Pro est de générer plusieurs candidats par invite et de les sélectionner, plutôt que de s'attendre à ce qu'une seule génération soit précisément conforme.

Où il échoue

Voix. Identique à Clip — Pro génère uniquement de la musique instrumentale. Les morceaux qui nécessitent des paroles et une performance vocale requièrent des surfaces de génération vocale dédiées ou des interprètes humains.

Contrôle compositionnel mesure par mesure. L'interface d'invite textuelle ne vous donne pas le type de contrôle compositionnel précis que fournissent les flux de travail de production musicale traditionnels. Pour la musique qui doit atteindre des repères spécifiques à des moments précis ou suivre des progressions harmoniques spécifiques, le flux de travail implique d'utiliser la sortie générée comme matériel de référence plutôt que comme produit final.

Frontières de genre. Le modèle a été entraîné sur des données larges mais les genres de niche spécifiques produisent des résultats plus variables. Les genres de musique populaire occidentale traditionnelle sont bien gérés ; les traditions moins représentées sont traitées avec plus d'incohérence. Testez sur des invites réelles dans vos genres cibles avant de vous engager.

Clarté du droit d'auteur. L'interface d'invite accepte les invites de référence d'artiste mais produit des sorties dans un territoire de droit d'auteur incertain. Décrire les caractéristiques musicales plutôt que de référencer des artistes spécifiques protégés par le droit d'auteur est la pratique la plus sûre.

Reproductibilité. Demander deux fois la même idée musicale produit deux compositions liées mais distinctes, et non la même composition deux fois. Pour les flux de travail qui nécessitent une cohérence de caractère ou une continuation de thème sur plusieurs pièces, le schéma pratique est de générer une fois puis d'utiliser l'analyse musicale ou l'édition des pistes pour développer davantage la même idée, plutôt que de relancer l'invite depuis le début.

Face à la concurrence

L'espace de génération musicale longue durée comprend Suno, Udio, et divers efforts open-source. Chacun a son tempérament.

Suno et Udio sont les leaders grand public avec de solides capacités vocales, une large couverture de genres, et des interfaces utilisateur directes qui sont populaires pour un usage créatif. Les alternatives open-source comme les variantes MusicGen offrent des options auto-hébergeables pour les équipes qui ont besoin d'un contrôle opérationnel sur le déploiement.

La position distinctive de Lyria 3 Pro est l'intégration avec l'écosystème Gemini plus large de Google et l'accent mis sur l'accès API favorable à l'intégration plutôt qu'un produit grand public. Pour les équipes qui construisent des outils qui encapsulent la génération musicale comme fonctionnalité au sein d'un produit plus large, le récit de déploiement axé sur l'API est le chemin de moindre résistance. Pour les produits de création musicale destinés aux utilisateurs finaux, les services grand public sont généralement mieux adaptés.

Notes de déploiement

La surface API suit le schéma de point de terminaison Gemini standard. Invites textuelles en entrée, sortie audio. Le temps de génération plus long signifie que les déploiements en production doivent planifier des schémas asynchrones — soumettre une demande de génération, interroger ou utiliser un webhook à la fin, récupérer la sortie lorsqu'elle est prête. Les schémas synchrones interactifs fonctionnent pour une utilisation par lots mais deviennent maladroits pour les fonctionnalités destinées aux utilisateurs où l'utilisateur attend en temps réel.

La modération de contenu s'exécute sur les invites d'entrée au niveau de la couche de requête. Les sorties ne sont pas filtrées après génération.

Le suffixe « preview » mérite d'être pris au sérieux pour la planification de production. Google a livré des aperçus qui sont devenus des produits à long terme et des aperçus qui ont été repositionnés ou abandonnés. Pour les déploiements avec des horizons pluriannuels, planifiez la possibilité de changements de surface ou d'API.

Les formats de sortie suivent les conventions standard de conteneur audio. Les taux d'échantillonnage et les débits binaires sont configurables dans les contraintes du modèle sous-jacent.

Pour des orientations de pipeline plus larges sur la génération musicale dans une pile basée sur Google Cloud, la documentation Gemini couvre les schémas de déploiement environnants.

Le choisir

Optez pour Lyria 3 Pro Preview lorsque vous avez besoin de :

  • Compositions musicales complètes avec développement structurel.
  • Outillage créatif qui produit de la musique comme sortie principale.
  • Déploiement axé sur l'API dans un pipeline basé sur Google Cloud.
  • Musique pour contenu narratif où l'arc compositionnel compte.

Descendez vers Lyria 3 Clip Preview lorsque des lits sonores courts ou des stingers sont ce dont le cas d'usage a réellement besoin. Regardez les services grand public comme Suno ou Udio lorsque la capacité vocale est requise ou lorsque la cible de déploiement est un produit créatif pour utilisateur final plutôt qu'une intégration API.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Lyria 3 Pro Preview — illustration 2
Dernier test automatisé
14 juin 2026 · 04:14 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026