All Pages

This is an old revision of the document!

Du 02 Juillet 2018 au 30 Juillet 2018, j’ai effectué un stage au sein du département informatique de l’IMT Atlantique. Au cours de ce stage, j’ai pu m’intéresser aux différents algorithmes d’estimation du squelette humain. Dans le cadre de l’utilisation du robot Poppy pour exécuter des exercices de kinésithérapie, ce robot utilise une caméra Kinect afin de détecter le squelette du patient et évaluer l’exécution du mouvement. Mon travail au cours de ce stage a été d’évaluer d’autres algorithmes permettant la détection du squelette humain et leur comparaison avec la Kinect et la Xsens. J'ai travaillé avec les modules suivants :

- Tensorflow
- Caffe : Framework Deep Learning (Travaille sous Cuda ou CPU_Only)
- pycaffe : module python de Cafffe (Nécessite que caffe soit installé)
- OpenCV2 ou OpenCV3.

Installation de Caffe

Caffe est un framework écrit en C++ avec une interface python sous le nom de pycaffe. L'installation du framework est détaillée dans le lien suivant : https://chunml.github.io/ChunML.github.io/project/Installing-Caffe-Ubuntu/

Il faudra configurer ensuite le path de Caffe comme suivant : Path caffe à rajouter dans le bashrc (vim ~/.bashrc), à adapter selon l’endroit où se situe caffe:

export PYTHONPATH=/home/y17bendo/caffe/python:$PYTHONPATH
Pour les utilisateurs de Caffe en GPU, rajouter les paths suivants :
export LD_LIBRARY_PATH=“$LD_LIBRARY_PATH:/usr/local/cuda/lib64”
export CUDA_HOME=/usr/local/cuda

Installer également skimage si le module n'est pas installé (sudo apt-get install python3-skimage).

Installation de OpenCV3 pour ubuntu 18.04 :

Toutes les instructions sont disponibles sur le lien suivant :
https://www.pyimagesearch.com/2018/05/28/ubuntu-18-04-how-to-install-opencv/

Caffe :

Cette implémentation utilise des Parts Affinity Fields pour détecter les différentes parties du corps de différentes personnes dans une image. Le modèle a été pré-entraîné avec COCO et utilise 6 stages.
Ce code reçoit les paramètres suivants:
-L’image.
-Le scale : C’est la taille à laquelle l’image est redimensionnée avant d’être traitée par le réseau de Neurones.
Le code principale permettant de traiter une seule image est le fichier : processing_image.py présent sur le serveur Greiner dans le répertoire suivant : Realtime_Multi-Person_Pose_Estimation/testing/python

Tensorflow :

Une seconde implémentation du Deep Pose Estimation basé sur Tensorflow. Cette implémentation fournit plusieurs variantes en modifiant la structure de neurones ce qui permet de choisir entre vitesse de traitement et précision de l’estimation.
La version Mobilenet_thin étant la plus légère et la version cmu étant la plus lourde. L’implémentation est disponible sur Greiner dans le répertoie tf-openpose.

Plusieurs tests ont été exécutés afin de comparer le temps de traitement des différentes implémentations et leurs différentes variantes. Le tableau suivant illustre le temps de calcul pour chacun des tests:

Scale	Stage	CPU/GPU	Temps Scaling (ms)
0.25	6	CPU	1576.30
0.5	6	CPU	6009.74
1.25	6	CPU	42585.52
1.5	6	CPU	Failure
2	6	CPU (Greiner)	107388
0.5	6	GPU	149.73
0.75	6	GPU	348.13
1	6	GPU	453.33
1.25	6	GPU	Failure

-Les tests en CPU ont été faits sur la vm (4 coeurs) sauf pour le test CPU (Greiner) qui a été exécuté sur la machine Greiner en mode CPU (32 coeurs).
-Les tests en GPU ont été faits sur Greiner également.
Plus le scaling est grand plus le temps de traitement l’est. Cependant, au delà d’un seuil la vm plante pour une raison d'insuffisance de RAM (scale de 1,5 pour la vm), et le programme plante sur Greiner au dela d’un scale de 1,25 en mode GPU en raison d’une insuffisance de mémoire sur la carte graphique (11GB).
Le mode GPU est nettement plus rapide.

Le tableau suivant illustre la différence en temps en modifiant les stages dans l’implémentation sous Caffe. Le temps de traitement est proportionnel au nombre de stages diminue considérablement d’un rapport de 2/3 . Ceci s’explique par le fait que le temps de passage par chaque stage est identique. Néanmoins la précision de l’estimation se dégrade également en diminuant le nombre de stages.

Scale	Stage	Temps Scaling (ms)	Rapport
0.25	6	1576.3	1.566
0.25	4	1006.05
0.5	6	6009.74	1.433
0.5	4	4191.68

Un dernier test a été fait sur des vidéos et en calculant le frames per second (fps) pour chaque implémentation.

	Tensorflow Implementation		Caffe Implementation
	Mobilenet Model	CMU Model	Greiner GPU Scale 0.5	Greiner GPU Scale 1	vm scale 0.25	vm scale 0.5
Fps	5 fps	0.42 fps	0.45 fps	0.32 fps	0.4 fps	0.14 fps

La mobilenet_thin est la plus rapide (5 fps), tandis que les implémentations sous Caffe sont plus lents. En terme de précision, la cmu est comparable à un scale de 0,5 sous Caffe.
Dès lors, pour les tests suivants, nous avions décidé de comparer de manière quantitative la mobilenet avec les données fournies par le Kinect et la Xsens.

Le programme principal suivant (./Algo/run_algo.py ) permet de traiter une vidéo et estimer les positions des membres du corps de personnes apparaissantes dans une vidéo, plusieurs modes et choix sont possibles comme suivant:

Argument	Type	Default	Description
video	String	“”	Path of the video to use
modèle	String	“mobilenet_thin”	Model to use : mobilenet_thin,cmu,caffe
scale	Float	0.5	scale for caffe model
save	String	“”	path where to save the processed frames
nb_images	int	140	Echantillonnage de la vidéo
live	bool	False
save_video	String	“”	Repertoire où enregistrer la vidéo
save_data	String	“”	Repertoire où enregistrer les données de la Mobilenet
screen	bool	False	Afficher la vidéo traitée au cours du traitement

Afin de comparer les données de la Kinect, de la Mobilenet et de la Xsens. Ces données doivent subir plusieurs modifications selon la procédure suivante :

Coloriage de la vidéo en supprimant le squelette.
Collecte des données de la Mobilenet.
Conversion des données de la Xsens en format de données Kinect.
Superposition des squelettes.
Interpolation des données.
Comparaison effective des différentes données.

Cela est possible en utilisant les scripts suivants:

Coloriage de la vidéo en supprimant le squelette:

Les données brutes fournies contiennent le squelette de la Kinect tracé sur la vidéo. Il faut tout d’abord corriger cela en supprimant le squelette et en essayant de recolorier la vidéo. Pour cela, le programme (Remove_Skeleton.py) permet de détecter les pixels rouges du squelette, les supprime et les remplace en faisant une moyenne sur un carré de 16 pixels centré sur le pixel que l’on souhaite supprimer sans prendre en compte les pixels rouges.
Ce programme parcourt la vidéo frame par frame et enregistre le résultat sous forme d’une nouvelle vidéo avec la possibilité d’enregistrer les frames.
Une fois la vidéo coloriée, nous disposons d’une vidéo relativement similaire à l'originale avec quelques défauts notamment au niveau des extrémités des membres et à certains endroits où le squelette est de couleur presque orange similaire à celle des capteurs. En diminuant encore plus le seuil de (R,G,B) les capteurs étaient aussi coloriés. \\Le squelette coloriée, nous pouvons à présent collecter les données de la Mobilenet.

Collecte des données de la Mobilenet

Cette étape permet de collecter les données de la mobilenet sous forme de json au même format que ceux de la Kinect, avec la seule différence que les données collectées sont en X,Y au lieu de Z,X,Y.
Pour cela, on utilise le code principale en choisissant comme algorithme la mobilenet avec l’option save_data et en précisant comme vidéo d’entrée la vidéo coloriée. Le format de la Kinect étant le suivant : {“positions”: { frame : { BodyPart : [ Z, X, Y ] } } }

Etant donné que les parties du corps détectés par la Kinect et la Mobilenet ne sont pas les mêmes, nous nous sommes contentés de collecter uniquement les parties du corps communes afin de pouvoir les comparer.

Conversion des données de la Xsens en format de données Kinect:

Afin de pouvoir uniformiser les données, le programme (Conversion_Xsens_json_format.py) reçoit les données de la Xsens en fichier xmlx et les convertit au même format que ceux de la Kinect.

Conversion des données Skeleton2D de la Kinect :

Certaines données de la Kinect étaient en format différent (cf figure ci-dessous). Un autre programme (Conversion_Skeleton_Kinect.py) permet de les convertir au format standard de la Kinect.

A ce stade, toutes les données de la Kinect, Mobilenet et Xsens sont au même format souhaité.

Superposition des squelettes:

Avant d’entamer la comparaison, il faut tout d’abord superposer les différentes données. Pour cela, les deux programmes (Supperposition_Mobilenet_Kinect.py et SupperpositionXsens_Kinect.py) automatisent la superposition, et un autre programme (plot_skeletons.py) permet de visualiser les squelettes superposés. La superposition se fait par rapport aux données de la Kinect de la manière suivante :

Rotation selon l’axe des y pour les données de la Xsens.
Rescale du squelette en se basant sur la longueur des jambres (genou à la cheville)
Superposition des middle Shoulders en exécutant une translation dans le plan (X,Y)

Action generation and evaluation system based on deep learning networks	2020/07/17 14:45	Mai Nguyen
Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Détection de nouveauté ; application aux objets 3D	2017/03/13 10:34	Mai Nguyen
Mary Text-To-Speech	2016/02/19 00:09	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Poppy-Kine : S4 project 2015-2016	2016/06/20 07:23	Projet s4 projet 12 année 2016
Poppy-Kine : S4 project 2016-2017	2015/10/28 13:01
Poppy-Kine : S5 project 2015-2016	2015/10/28 13:01
Poppy-Kine : Stage d'été 2017 PoppyImitatesKinect	2017/08/28 21:22	Projet s4
Poppy-Kine : Stage d'été 2017 PoppySystèmeDeLEDs	2017/08/28 23:35	Projet s4
Projet P205: Capture du mouvement humain pour le suivi des activités de la vie quotidienne	2019/03/10 23:43	Madeleine Bailleux
robocup	2015/10/28 13:01
robot and home automation	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
simulators	2019/02/12 13:04	Yao - Fabien - Flavien
The Sims pour la recherche, un simulateur de maison connectée	2020/07/03 17:48	Mai Nguyen

Application de la cinématique inverse au robot Poppy Torso dans un jeu de morpion	2018/10/25 09:52	Kone
Copycat	2019/09/06 14:54	Loan Guilbaud
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Nao robot	2017/03/31 08:48	Mai Nguyen
Pepper	2023/10/11 11:47	Christophe
Poppy robot	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Arduino	2015/10/28 15:04	Nicolas Favé
Available computers and servers	2015/11/26 16:15	Mai Nguyen
Dynamixel	2015/10/28 16:14	Nicolas Favé
Kinect and other rgbd-cameras	2016/01/26 09:37	Mai Nguyen
Main préhensile pour le robot Poppy et interface tangible	2018/08/01 17:11	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Nao robot	2017/03/31 08:48	Mai Nguyen
Odroid XU4	2016/01/20 10:29
Poppy robot	2015/10/28 13:01
Projet P205: Capture du mouvement humain pour le suivi des activités de la vie quotidienne	2019/03/10 23:43	Madeleine Bailleux
The tactile table reactable	2018/08/02 09:38	Mai Nguyen
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Navigation strategy with pepper	2018/06/20 08:15	Khalil Serrakh
Openni_Launch (ROS package)	2015/10/28 15:21	Nicolas Favé
Openni_Tracker (ROS package)	2015/10/28 15:32	Nicolas Favé
Openni_Tracker_Modified	2015/10/28 15:44	Nicolas Favé
Requirement	2016/02/03 13:45
Robotic Arm	2015/10/28 13:01

Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Arduino	2015/10/28 15:04	Nicolas Favé
Gaussian Mixture Model (GMM) on Riemannian manifold	2018/04/09 20:33	Maxime Devanne
Gaussian Process Latent Variable Model (GPLVM)	2018/04/03 09:06	Maxime Devanne
Install	2018/09/11 22:45	Mai Nguyen
Kinect Library	2017/02/28 10:13	Maxime Devanne
Kinect_aux_robotic_arm (ROS package)	2016/02/19 14:33	Nicolas Favé
Main préhensile pour le robot Poppy et interface tangible	2018/08/01 17:11	Mai Nguyen
Mary Text-To-Speech	2016/02/19 00:09	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Object_detection (ROS package)	2016/02/19 14:33	Nicolas Favé
Openni_Launch (ROS package)	2015/10/28 15:21	Nicolas Favé
Openni_Tracker (ROS package)	2015/10/28 15:32	Nicolas Favé
Openni_Tracker_Modified	2015/10/28 15:44	Nicolas Favé
Poppy GRR Keraal: The web interface to record and replay movements	2017/03/03 15:48	Maxime Devanne
Poppy robot	2015/10/28 13:01
Poppy Software	2015/12/02 14:45	Mai Nguyen
Robot Operating System	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
Robotic_arm (ROS package)	2016/02/19 14:32	Nicolas Favé
Robotic_arm_controler (ROS package)	2016/02/19 14:33	Nicolas Favé
simulators	2019/02/12 13:04	Yao - Fabien - Flavien
speech recognition and text-to-speech	2015/11/03 19:01	Mai Nguyen
The Sims pour la recherche, un simulateur de maison connectée	2020/07/03 17:48	Mai Nguyen
xAAL protocol	2015/10/28 13:01
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Stage 2018

Installations

Implémentations

Comparaison des implémentations

Code Principale (Choix de l’algorithme)

Procédure

Coloriage de la vidéo en supprimant le squelette:

Collecte des données de la Mobilenet

Conversion des données de la Xsens en format de données Kinect:

Conversion des données Skeleton2D de la Kinect :

Superposition des squelettes: