Darius Baruar
17 juin 2025 08:48
L’initiative R²D² de NVIDIA explore les modèles de perception 3D basés sur l’IA pour la robotique, l’amélioration de la navigation autonome, la manipulation d’objets et la cartographie environnementale en temps réel.
NVIDIA fait des progrès pionniers dans la perception des robots 3D basée sur l’IA à travers son digest de recherche et développement en robotique (R²D²), en se concentrant sur l’activation des robots pour comprendre et interagir efficacement avec leurs environnements. La dernière recherche met en évidence plusieurs modèles innovants qui améliorent la navigation autonome, la manipulation d’objets et la cartographie en temps réel dans des contextes complexes, selon NVIDIA Research.
Modèles de perception 3D unifiés
La suite de modèles de perception de Nvidia intègre la compréhension de la scène 3D, le suivi des objets et la mémoire spatiale dans un système cohérent. Les modèles clés incluent FoundationsSterreo, PycUVSLAM, BundlesDF et FoundationSpose, chacun contribuant à une robuste pile de perception 3D. FoundationsSterreo, nominé pour le meilleur article au CVPR 2025, excelle dans l’estimation de la profondeur stéréo dans divers environnements, offrant des performances zéro-shot sans réglage spécifique à la scène.
Technologies avancées de slam et de cartographie
PYCUVSLAM et NVBLOX offrent une estimation de la pose de caméra en temps réel et une cartographie de l’environnement 3D. Ces technologies permettent aux robots de naviguer et d’interagir avec des espaces non structurés en utilisant des alternatives rentables aux capteurs LIDAR 3D traditionnels. L’emballage Pytorch pour NVBLOX accélère la reconstruction 3D, permettant d’éviter les obstacles à grande vitesse et visuellement.
Suivi et reconstruction de la pose d’objets
FoundationPose et BundlesDF relèvent le défi du suivi de la pose d’objets à 6 DOF, même pour les nouveaux objets. FoundationPose tire parti d’un modèle de fondation unifié pour une estimation de la pose précise, tandis que BundlesDF offre une reconstruction 3D neuronale en temps réel à partir de la vidéo RGB-D, affinant les trajectoires de pose au fil du temps.
Modèles de fondation pour la généralisation
Les modèles de fondation comme Foundationstereo et FoundationPose démontrent de fortes capacités de généralisation entre les tâches, améliorant la fiabilité dans des scénarios zéro-shot. Ces modèles intègrent des prieurs à usage général dans des systèmes en temps réel, soutenant les robots dans des environnements et avec des objets non vus pendant la formation.
Avenir de la perception de la robotique
La pile de perception 3D intégrée de Nvidia représente une étape significative vers les robots avec une conscience spatiale et sémantique. En combinant des modèles de fondation avec des représentations 3D neuronales, les robots peuvent atteindre la perception en temps réel de la navigation, de la manipulation et de l’interaction dans des environnements complexes.
Source de l’image: Shutterstock
Source: https://blockchain.news/news/nvidia-research-advances-3d-robot-perception
Résumé: L’initiative R²D² de NVIDIA met en avant des modèles de perception 3D innovants basés sur l’IA pour améliorer la navigation autonome et la manipulation d’objets. Avec des technologies avancées et des capacités de généralisation, cette recherche ouvre la voie à des robots plus intelligents et interactifs dans des environnements complexes.