Nos recherches au CEA LIST sont appliquées à la vision par ordinateur pour la compréhension automatique de scènes.

Nos travaux portent sur la conception de nouveaux modèles de perception basés sur l’apprentissage machine, notamment l’apprentissage profond, pour la reconnaissance visuelle dans les images et les vidéos, l’analyse des interactions, l’analyse du comportement des individus, des groupes et des foules, l’analyse et la caractérisation des données visuelles et l’annotation intelligente des données.

Thèmes de recherche

Reconnaissance visuelle

Détection d’objets rapide et robuste

Lapnet : détecteur d’objets une-passe au rapport performance/complexité à l’état de l’art

Reconnaissance fine d’objets

Apprentissage de représentations commune couleur et contour à partir de données réelles et synthétiues

Réseaux de neurones convolutifs multi-tâches pour la détection d’objets et la segmentation sémantique

Deep MANTA (MAny TASk) et Single-Shot Deep MANTA

Estimation de pose humaines 3D à partir d’images 2D

PandaNet: réseau de neurones single-shot basé ancres pour la détection de personnes, l’estimation de leurs poses 2D et 3D

Modélisation de l’apparence pour la ré-identification

Apprentissage de bout-end-bout de réseaux de neurones pour la détection et la ré-identification simultanées de personnes

Reconnaissance d’attributs sémantiques

Framework unifié pour la segmentation d’instances et la segmentation d’attributs sémantiques

Analyse de comportements

Suivi multi-objets temps réel

Suivre tous les objets observés dans une camera ou un réseau de caméras en combinant détection d’objets et caractéristiques visuelles de ré-identification

Détection d’interactions

Association automatique entre personne et objets dans une scène avec reconnaissance du type d’interaction

Reconnaissance d’activités

Reconnaissance des activités de la vie quotidienne par l’analyse des actions et personnes

Détection d’événements dans les vidéos

RIMOC: un descripteur de mouvements déstructurés pour la reconnaissance d’événements violents

Comportement de la foule

Crowd-11, un dataset de scènes de foules annotées avec 11 classes de comportement, et CrowdCNN un réseau de neurones convolutif profond pour la reconnaissance de ces 11 classes

Au-delà de l’apprentissage supervisé

Apprendre avec peu de données

Meta-learning: de la théorie à la pratique. Apprendre à apprendre avec peu de données à partir tâches élémentaires multiples afin de s’adapter rapidement à une nouvelle tâche, avec des capacités accrues de généralisation.

Apprentissage une-classe pour la détection d’anomalies

Patch Distribution Modeling method (PaDiM), une méthode simple et efficace pour détecter et localiser des anomalies dans les images

Apprentissage auto-supervisé de représentations d’image et de vidéo

Approche d’apprentissage auto-supervisé de représentations basée sur le Contrastive Predictive Coding (CPC) et une architecture de réseau de neurones convolutif

Adaptation de domaine pour la ré-identification de personnes

Approche non supervisée permettant l’adaptation au domaine cible tout en maintenant la robustesse au bruit des pseudo-labels

Annotation intelligente de données visuelles

Annotation multimodale de données visuelles

Fusion de données 2D (images RGB issues de caméras) et 3D (nuages de points issus de LIDAR) pour l’annotation d’objets et de scènes 3D

Détection et segmentation interactives

Algorithmes d’apprentissage profond pour la segmentation d’instances dans l’image requérant très peu d’interactions d’utilisateur

Propagation temporelle de labels

Propagation automatique d’annotations 2D et 3D dans les séquences temporelles par interpolation intelligente, suivi visuel dans les images et les nuages de points

PIXANO: un outil intelligent d’annotation pour la vision par ordinateur

Solution d’annotation efficace à grande échelle d’images et de vidéos, automatisée par l’IA, offrant un large éventail d’outils intégrés dans des composants web ouverts, modulaires, réutilisables et personnalisables

Apprentissage actif pour la détection d’objet et la segmentation d’image

Sélection active d’images pour l’apprentissage incrémental de modèles de détection et de segmentation, optimisant le rapport entre l’amélioration de performance et le nombre d’images annotées

Apprentissage par renforcement et modèles de perception

Apprentissage par renforcement pour la navigation autonome

Apprentissage de représentation de données en grande dimension pour entraîner par renforcement des agents à conduire

IA de confiance

Attaques et défense adversaires en apprentissage profond de métriques

Self Metric Attack (SMA) et Furthest Negative Attack (FNA), deux nouvelles méthodes d’attaques adversaires de métriques, et une nouvelle version efficace de protocole d’entraînement adversaire pour l’apprentissage de métrique plus robuste