
Fugatto : Un couteau suisse pour le son, contrôlé par texte
L’intelligence artificielle (IA) fait des progrès considérables dans le domaine du son. Une équipe de chercheurs en IA générative a récemment créé un outil polyvalent, Fugatto, qui permet aux utilisateurs de contrôler la sortie audio simplement à l’aide de texte.
Un modèle multitâche
Alors que certains modèles d’IA peuvent composer une chanson ou modifier une voix, aucun n’a la dextérité de Fugatto. Il génère ou transforme n’importe quel mélange de musique, voix et sons décrits à l’aide d’invites combinant texte et fichiers audio. Il peut, par exemple, créer un extrait musical à partir d’une invite textuelle, supprimer ou ajouter des instruments à une chanson existante, modifier l’accent ou l’émotion d’une voix, voire produire des sons inédits.
Une inspiration pour les créateurs
Ido Zmishlany, producteur et compositeur multi-platine, est enthousiaste : « Le son est mon inspiration. C’est ce qui me pousse à créer de la musique. L’idée de pouvoir créer de nouveaux sons à la volée en studio est incroyable. »
Des applications multiples
Fugatto peut être utilisé dans de nombreux domaines. Les producteurs de musique peuvent s’en servir pour prototyper ou éditer rapidement une idée de chanson, en essayant différents styles, voix et instruments. Ils peuvent également ajouter des effets et améliorer la qualité audio globale d’un morceau existant. « L’histoire de la musique est aussi une histoire de technologie. La guitare électrique a donné naissance au rock and roll. Lorsque l’échantillonneur est apparu, le hip-hop est né », explique Zmishlany. « Avec l’IA, nous écrivons le prochain chapitre de la musique. Nous avons un nouvel instrument, un nouvel outil pour faire de la musique – et c’est super excitant. »
Un contrôle artistique
Fugatto offre plusieurs fonctionnalités innovantes. Pendant l’inférence, le modèle utilise une technique appelée ComposableART pour combiner des instructions qui n’étaient vues séparément que pendant l’entraînement. Par exemple, une combinaison d’invites pourrait demander un texte prononcé avec un sentiment de tristesse dans un accent français. La capacité du modèle à interpoler entre les instructions donne aux utilisateurs un contrôle précis sur les instructions textuelles, dans ce cas la lourdeur de l’accent ou le degré de tristesse.
Des sons inédits
Contrairement à la plupart des modèles, qui ne peuvent que recréer les données d’entraînement auxquelles ils ont été exposés, Fugatto permet aux utilisateurs de créer des paysages sonores qu’il n’a jamais vus auparavant. Par exemple, un orage passant dans une zone avec des crescendos de tonnerre qui s’estompent lentement dans le lointain.
Un regard en coulisses
Fugatto est un modèle de transformateur génératif fondamental qui s’appuie sur les travaux antérieurs de l’équipe dans des domaines tels que la modélisation de la parole, le vocodage audio et la compréhension audio. La version complète utilise 2,5 milliards de paramètres et a été entraînée sur une batterie de systèmes NVIDIA DGX dotés de 32 GPU NVIDIA H100 Tensor Core.
Une conclusion enthousiasmante
Fugatto est un outil puissant qui repousse les limites de la création sonore contrôlée par texte. Il ouvre des possibilités infinies aux musiciens, producteurs et créateurs de contenu, leur permettant d’explorer de nouvelles voies d’expression et d’innovation.