IA On : 3 façons d’intégrer l’IA agentive à la vision par ordinateur

L’intelligence artificielle (IA) transforme de nombreux secteurs, et celui de la vision par ordinateur ne fait pas exception. Grâce aux avancées des modèles de langage visuel (VLM) et de l’agentic AI, les systèmes de vision par ordinateur gagnent en compréhension et en capacité d’analyse. Cet article explore trois approches clés pour améliorer les applications de vision par ordinateur, en utilisant des exemples concrets et des technologies de pointe.

Les systèmes actuels de vision par ordinateur excellent dans l’identification d’événements, mais peinent à expliquer le « pourquoi » et à anticiper le futur. L’agentic AI, combinée aux VLM, comble cette lacune en offrant des analyses approfondies et des informations contextuelles. Ces technologies permettent de connecter les descriptions textuelles avec les données spatiales et temporelles, ouvrant ainsi de nouvelles perspectives pour de nombreuses industries.

Rendre le Contenu Visuel Recherchable grâce aux Légendes Détaillées

Image article

Les outils traditionnels de recherche vidéo, basés sur les réseaux de neurones convolutionnels (CNN), sont limités par leur entraînement spécifique et leur manque de capacités multimodales. Ils peinent à traduire ce qu’ils voient en texte. Les entreprises peuvent désormais intégrer des VLM directement dans leurs applications existantes pour générer des légendes détaillées d’images et de vidéos. Ces légendes transforment le contenu non structuré en métadonnées riches et recherchables, dépassant les limitations des noms de fichiers et des étiquettes basiques.

Un exemple concret est le système d’inspection de véhicules automatisé UVeye, qui traite plus de 700 millions d’images haute résolution chaque mois. En appliquant des VLM, UVeye convertit ces données visuelles en rapports de condition structurés, détectant les défauts, les modifications ou les objets étrangers avec une précision exceptionnelle. Regardez la vidéo de démonstration UVeye. Cette amélioration permet une intervention précoce, réduisant les temps d’arrêt et contrôlant les coûts de maintenance. UVeye détecte ainsi 96 % des défauts contre 24% avec les méthodes manuelles.

De même, Relo Metrics, spécialisée dans la mesure du marketing sportif, utilise les VLM pour analyser le contexte des événements, comme l’apparition de logos lors d’un tir décisif. Relo Metrics va au-delà de la simple détection de logos pour quantifier la valeur des investissements médiatiques et optimiser les dépenses. Stanley Black & Decker a pu ajuster le positionnement de ses enseignes et économiser 1,3 million de dollars grâce à ces informations en temps réel.

Améliorer les Alertes des Systèmes de Vision par Ordinateur avec le Raisonnement VLM

Les systèmes de vision par ordinateur basés sur les CNN génèrent souvent des alertes binaires (oui/non). Sans le pouvoir de raisonnement des VLM, cela peut entraîner des faux positifs et des informations manquées, générant des erreurs coûteuses. Au lieu de remplacer ces systèmes, les VLM peuvent les compléter en ajoutant une compréhension contextuelle aux alertes. Cela permet d’expliquer où, comment et pourquoi un incident s’est produit.

Linker Vision utilise les VLM pour valider les alertes critiques en milieu urbain, comme les accidents de la route ou les inondations. Cela réduit les faux positifs et ajoute un contexte essentiel pour améliorer la réponse municipale en temps réel. Linker Vision automatise l’analyse des événements à partir de plus de 50 000 flux de caméras de villes intelligentes, permettant une coordination inter-départementale pour une résolution rapide des incidents.

Analyse Automatique de Scénarios Complexes avec l’Agentic AI

Les systèmes d’agentic AI peuvent traiter, raisonner et répondre à des requêtes complexes sur plusieurs flux vidéo et modalités, combinant les VLM avec des modèles de raisonnement, des grands modèles de langage (LLM), la génération augmentée par la recherche (RAG) et la transcription vocale. L’intégration d’un VLM dans un pipeline de vision par ordinateur existant est utile pour vérifier de courts extraits vidéo. Cependant, cette approche est limitée par le nombre de jetons visuels qu’un seul modèle peut traiter à la fois.

Les architectures complètes basées sur l’agentic AI permettent un traitement précis et évolutif d’archives vidéo longues et multicanaux. Cela conduit à des informations plus approfondies et fiables qui dépassent la compréhension superficielle. Les systèmes agentic AI peuvent être utilisés pour l’analyse des causes profondes ou l’analyse de longues vidéos d’inspection pour générer des rapports avec des informations horodatées.

Levatas développe des solutions d’inspection visuelle qui utilisent des robots mobiles et des systèmes autonomes pour améliorer la sécurité, la fiabilité et les performances des infrastructures critiques. En utilisant les VLM, Levatas a construit un agent d’IA d’analyse vidéo pour examiner automatiquement les séquences d’inspection et rédiger des rapports détaillés, accélérant considérablement un processus traditionnellement manuel et lent. Regardez la vidéo de Levatas. Pour des clients comme American Electric Power (AEP), Levatas AI s’intègre aux appareils Skydio X10 pour rationaliser l’inspection des infrastructures électriques. Levatas permet à AEP d’inspecter de manière autonome les poteaux électriques, d’identifier les problèmes thermiques et de détecter les dommages aux équipements. Des alertes sont envoyées instantanément à l’équipe AEP lors de la détection d’un problème, ce qui permet une réponse et une résolution rapides, et garantit une distribution d’énergie fiable, propre et abordable.

Des outils d’IA pour les jeux comme Eklipse utilisent des agents alimentés par VLM pour enrichir les diffusions en direct de jeux vidéo avec des légendes et indexer les métadonnées pour un interrogatoire, une synthèse et la création rapides de bobines de moments forts en quelques minutes – 10 fois plus vite que les solutions héritées – ce qui conduit à des expériences de consommation de contenu améliorées. Regardez la vidéo de Eklipse.

Perspectives d’Avenir et Technologies NVIDIA

Pour la recherche et le raisonnement avancés, les développeurs peuvent utiliser des VLM multimodaux tels que NVCLIP, NVIDIA Cosmos Reason et Nemotron Nano V2 pour construire des index riches en métadonnées pour la recherche. Pour intégrer les VLM dans les applications de vision par ordinateur, les développeurs peuvent utiliser la fonction d’examen des événements dans le NVIDIA Blueprint pour la recherche et la synthèse vidéo (VSS), qui fait partie de la plateforme NVIDIA Metropolis.

Ces technologies ouvrent la voie à des systèmes de vision par ordinateur plus intelligents, capables de comprendre le monde qui les entoure de manière plus approfondie. L’agentic AI associée aux VLM promet de transformer de nombreux secteurs, en améliorant l’efficacité, la sécurité et la prise de décision. Le développement de ces technologies est en constante évolution, avec de nouvelles avancées qui devraient continuer à repousser les limites de ce qui est possible.