Le plus grand zoo numérique : un modèle biologique entraîné sur GPU NVIDIA identifie plus d’un million d’espèces

Le monde de la recherche en intelligence artificielle (IA) et de la biologie franchit une nouvelle étape avec l’émergence de BioCLIP 2, un modèle de fondation révolutionnaire. Conçu pour identifier et analyser des millions d’espèces, ce projet ambitieux, mené par Tanya Berger-Wolf, directrice du Translational Data Analytics Institute (Translational Data Analytics Institute) et professeure à l’Université d’État de l’Ohio, promet de transformer notre compréhension du règne animal. BioCLIP 2, présenté à la conférence NeurIPS, s’appuie sur une base de données massive pour offrir des capacités d’analyse inédites et ouvre de nouvelles perspectives pour la conservation de la biodiversité.

Ce projet, qui a débuté avec un pari audacieux sur la capacité de l’IA à identifier les zèbres plus rapidement que les zoologistes, est aujourd’hui une réalité. BioCLIP 2 va au-delà de la simple reconnaissance d’images, capable de discerner les caractéristiques des espèces et d’établir des relations intra et inter-espèces. Son potentiel est immense, offrant aux chercheurs un outil puissant pour l’étude et la préservation de la faune et de la flore.

BioCLIP 2 : Un Modèle de Fondation Révolutionnaire

Image article

BioCLIP 2 est bien plus qu’un simple algorithme d’identification d’espèces. Il s’agit d’un « foundation model » (foundation model) basé sur la biologie, entrainé sur une base de données sans précédent. Le modèle a été entraîné sur le jeu de données TREEOFLIFE-200M, comprenant 214 millions d’images d’organismes provenant de plus de 925 000 classes taxonomiques. L’équipe de Berger-Wolf a collaboré avec la Smithsonian Institution et d’autres experts pour compiler et organiser cette immense collection de données. La capacité du modèle à organiser les pinsons de Darwin par la taille de leur bec, sans aucune instruction explicite, est un exemple frappant de ses capacités d’apprentissage et d’inférence.

Ce nouveau modèle, disponible en open-source sur Hugging Face (available under an open-source license on Hugging Face), a été téléchargé plus de 45 000 fois le mois dernier. BioCLIP 2 s’appuie sur le premier modèle BioCLIP, sorti il y a plus d’un an, qui avait déjà été récompensé lors de la conférence Computer Vision and Pattern Recognition (CVPR). Le document de recherche sur BioCLIP 2 sera présenté à la conférence NeurIPS (NeurIPS), qui se tiendra à Mexico City et à San Diego.

Des Applications Concrètes pour la Recherche et la Conservation

Image article

L’un des principaux objectifs de BioCLIP 2 est de combler le manque de données sur de nombreuses espèces, un problème crucial pour la conservation. En permettant une analyse approfondie des relations entre les espèces et leur environnement, ce modèle offre des outils précieux pour les chercheurs. Il peut, par exemple, déterminer l’état de santé d’un organisme à partir des données d’entraînement, comme distinguer les feuilles saines des feuilles malades. L’équipe de Berger-Wolf a utilisé un cluster de 64 GPU NVIDIA Tensor Core pour accélérer l’entraînement du modèle, ainsi que des GPU Tensor Core individuels pour l’inférence. Ces capacités sont essentielles pour étudier des espèces emblématiques et contribuer à la préservation de la biodiversité.

Les applications potentielles de BioCLIP 2 sont nombreuses :

  • Évaluation précise des populations d’espèces.
  • Compréhension des relations complexes au sein des écosystèmes.
  • Identification des menaces et des facteurs de risque pour les espèces en danger.

Jumeaux Numériques et le Futur de la Recherche Écologique

Image article

L’équipe de recherche prévoit de développer des jumeaux numériques interactifs basés sur la faune, afin de visualiser et de simuler les interactions écologiques. Ces jumeaux numériques offriront un environnement sûr et contrôlé pour étudier les relations entre les espèces, en minimisant l’impact sur les écosystèmes. Ce projet permettra aux scientifiques d’explorer les points de vue des espèces étudiées dans un environnement simulé, ouvrant de nouvelles perspectives pour des recherches écologiques plus complexes et précises.

À terme, cette technologie pourrait être déployée pour le grand public, par exemple, via des plateformes interactives dans les zoos. Les visiteurs pourraient ainsi explorer et apprendre sur l’environnement naturel et ses nombreuses espèces sous un angle nouveau. L’impact potentiel sur la sensibilisation et l’éducation environnementale est considérable.

Conclusion

BioCLIP 2 représente une avancée majeure dans le domaine de l’IA appliquée à la biologie. En fournissant des outils puissants pour l’analyse des données et la compréhension des écosystèmes, ce modèle ouvre de nouvelles perspectives pour la recherche scientifique et la conservation de la biodiversité. Son potentiel pour transformer notre manière d’étudier et de protéger le monde vivant est immense.

Avec ses capacités d’apprentissage avancées et son accessibilité en open-source, BioCLIP 2 est un exemple concret de la manière dont l’IA peut être mise au service de la science et de la préservation de notre planète. Cette initiative promet de susciter de nouvelles découvertes et d’inspirer des collaborations pour un avenir plus durable.