L’objectif
L’objectif est de reconnaître toutes les interactions possibles entre les objets et les personnes et également entre personnes. Cette technologie permet d’analyser finement une scène et peut être appliquée dans le cadre de la vidéo surveillance pour détecter des bagarres ou des bagages abandonnés par exemple.

Les challenges
Il est nécessaire de détecter préalablement tous les objets d’une scène ce qui est un axe de recherche à part entière. Une fois que ces objets sont détectés, il faut pouvoir les associer avec le bon type d’interaction. Une interaction telle que « tenir » peut être réalisée avec une multitude de type d’objets différents. L’algorithme doit être capable de détecter l’interaction même s’il n’a jamais vu une personne tenir un certain type d’objet pendant son apprentissage : il doit être capable de généraliser l’interaction. De plus, les objets en interactions sont parfois occultés ou non visibles dans la scène. Dans ces cas, l’algorithme doit quand même être capable de reconnaître l’interaction juste avec l’apparence de la personne. Enfin, certaines interactions sémantiquement différentes sont proches visuellement telles que manger et boire ou tenir et soulever.

La solution proposée
La grande majorité des méthodes de l’état de l’art détectent préalablement tous les objets de la scène puis calculent une probabilité d’interaction entre tous les couples possibles. Le temps de calcul nécessaire pour traiter une image est donc quadratique et dépend du nombre d’objet dans la scène.
Le CEA propose la solution Calipso (Classifying all interacting pairs) qui est une méthode dite « en une passe » sur l’image car elle estime les interactions en ne passant qu’une seule fois l’image dans le réseau. Pour se faire, les interactions sont estimées sur une grille dense d’ancres. Le point fort de Calipso est donc qu’il est rapide et indépendant du nombre d’objets dans l’image.

Le dataset utilisé
Nous utilisons le dataset V-COCO qui est constitué de 10 000 images et est annoté avec une trentaine de verbe d’interaction.
Calipso montre un score de 45% de bonne reconnaissance des triplets <sujet, verbe, objet cible> sur ce dataset.

Résultats de la méthode Calipso appliquée à des images du dataset V-COCO