NVIDIA : nouveaux jeux de données et modèles ouverts pour l’IA vocale multilingue.

NVIDIA : nouveaux jeux de données et modèles ouverts pour l'IA vocale multilingue.

Le monde de l’intelligence artificielle vocale (IA vocale) évolue à une vitesse fulgurante, mais une barrière persiste : la diversité linguistique. Sur les quelque 7 000 langues parlées dans le monde, une infime portion est véritablement prise en charge par les modèles d’IA actuels. NVIDIA s’attaque à ce défi de front en lançant un nouvel ensemble de données et des modèles conçus pour améliorer la reconnaissance vocale et la traduction en 25 langues européennes, y compris celles disposant de peu de ressources, comme le croate, l’estonien et le maltais. Cette initiative promet de démocratiser l’accès à la technologie vocale pour un public plus large et d’ouvrir de nouvelles perspectives pour le développement d’applications multilingues.

Ces nouveaux outils permettront aux développeurs de déployer plus facilement des applications d’IA à l’échelle mondiale, offrant une technologie vocale rapide et précise pour des cas d’utilisation en production tels que les chatbots multilingues, les agents vocaux de service client et les services de traduction quasi en temps réel. Ce lancement inclut Granary, un corpus de données massif et open-source, ainsi que deux nouveaux modèles performants. Ce sont des avancées notables pour le secteur.

Granary : Un Trésor de Données Multilingues

Au cœur de cette initiative se trouve Granary, un ensemble de données massif et open-source. Il contient environ un million d’heures d’audio, dont près de 650 000 heures pour la reconnaissance vocale et plus de 350 000 heures pour la traduction vocale. Ce corpus est un véritable trésor pour les chercheurs et les développeurs souhaitant travailler sur des modèles de reconnaissance et de traduction vocale pour diverses langues européennes. Le papier détaillant Granary sera présenté à Interspeech, une conférence sur le traitement du langage qui se tiendra aux Pays-Bas du 17 au 21 août. L’ensemble de données, ainsi que les nouveaux modèles Canary et Parakeet, sont dès à présent disponibles sur Hugging Face, une plateforme de référence pour les modèles d’IA.

Pour créer Granary, l’équipe d’IA vocale de NVIDIA a collaboré avec des chercheurs de l’Université Carnegie Mellon et de la Fondazione Bruno Kessler. Ils ont utilisé une chaîne de traitement innovante, basée sur le toolkit NVIDIA NeMo Speech Data Processor, pour transformer des données audio non étiquetées en données structurées et de haute qualité. Cette approche a permis d’améliorer les données vocales publiques sans avoir recours à une annotation humaine intensive, une étape souvent coûteuse et chronophage. La méthode est accessible en open source sur GitHub.

Les Modèles Canary et Parakeet : Des Outils Adaptés aux Besoins

Pour illustrer les possibilités offertes par Granary, NVIDIA a développé deux modèles : NVIDIA Canary-1b-v2 et NVIDIA Parakeet-tdt-0.6b-v3. NVIDIA Canary-1b-v2 est un modèle d’un milliard de paramètres optimisé pour une transcription de haute qualité des langues européennes, ainsi que pour la traduction entre l’anglais et une vingtaine de langues prises en charge. Il est disponible sous une licence permissive et étend la prise en charge de la famille Canary de quatre à 25 langues. Ce modèle offre une qualité de transcription et de traduction comparable à celle de modèles trois fois plus grands, tout en étant jusqu’à dix fois plus rapide en inférence. Vous pouvez le retrouver sur Hugging Face.

NVIDIA Parakeet-tdt-0.6b-v3, quant à lui, est un modèle simplifié de 600 millions de paramètres, conçu pour la transcription en temps réel ou à grand volume des langues prises en charge par Granary. Il privilégie le débit élevé et est capable de transcrire des segments audio de 24 minutes en une seule passe d’inférence. Le modèle détecte automatiquement la langue de l’audio et transcrit sans étapes de demande supplémentaires. Il est également disponible sur Hugging Face.

Ces deux modèles offrent des exemples concrets de ce que les développeurs peuvent créer avec Granary, en les adaptant à leurs applications spécifiques. Les deux modèles Canary et Parakeet fournissent des résultats précis, avec la ponctuation, la capitalisation et les horodatages au niveau des mots. En partageant la méthodologie derrière Granary et ces deux modèles, NVIDIA encourage la communauté mondiale des développeurs d’IA vocale à adapter ce flux de traitement des données à d’autres modèles de reconnaissance vocale ou de traduction automatique, ainsi qu’à d’autres langues, accélérant ainsi l’innovation dans le domaine de l’IA vocale.

Implications et Perspectives d’Avenir

L’initiative de NVIDIA a des implications significatives. En fournissant des données de qualité et des modèles pré-entraînés pour des langues souvent sous-représentées, NVIDIA contribue à rendre la technologie vocale plus inclusive. L’équipe a démontré dans son article Interspeech qu’il faut environ deux fois moins de données d’entraînement Granary pour atteindre un niveau de précision cible pour la reconnaissance vocale automatique (ASR) et la traduction vocale automatique (AST), par rapport à d’autres ensembles de données populaires. Cela ouvre la voie à des applications plus accessibles et adaptées à la diversité linguistique européenne.

L’utilisation de NVIDIA NeMo, une suite logicielle modulaire pour la gestion du cycle de vie des agents d’IA, a également joué un rôle crucial. NeMo Curator, un composant de cette suite, a permis d’éliminer les exemples synthétiques des données sources, garantissant ainsi que seuls les échantillons de haute qualité étaient utilisés pour l’entraînement des modèles. L’équipe a également utilisé le toolkit NeMo Speech Data Processor pour des tâches telles que l’alignement des transcriptions avec les fichiers audio et la conversion des données dans les formats requis. Avec Granary, les développeurs peuvent non seulement gagner du temps et des ressources, mais aussi bénéficier d’une base solide pour construire des modèles performants.

Conclusion

L’initiative de NVIDIA avec Granary et les modèles Canary et Parakeet marque une avancée significative dans le domaine de l’IA vocale multilingue. En mettant à disposition un ensemble de données volumineux et des modèles performants, NVIDIA facilite le développement d’applications vocales pour un public plus large et contribue à une technologie plus inclusive. Que ce soit pour les chatbots multilingues, les services clients vocaux ou la traduction en temps réel, les outils de NVIDIA ouvrent de nouvelles perspectives pour les développeurs et les entreprises du monde entier.

L’accès à des ressources comme Granary, disponible sur Hugging Face, est essentiel pour l’avenir de l’IA vocale. Pour en savoir plus, vous pouvez consulter l’article détaillé sur le papier derrière Granary ainsi que les ressources disponibles sur GitHub. L’évolution de l’IA vocale est en marche, et NVIDIA est clairement en première ligne.