DSpace
 

Dspace de universite Djillali Liabes de SBA >
Thèse de Doctorat en Sciences >
Electronique >

Veuillez utiliser cette adresse pour citer ce document : http://hdl.handle.net/123456789/3593

Titre: Méthodes de réduction de dimensions et apprentissage artificiel pour l'estimation de poses du visage
Auteur(s): MEKAMI, Hayat
Encadreur: BOUNOUA, Abdennacer
Mots-clés: Estimation de la pose de visage
séries temporelles
encodeur-décodeur
Date de publication: 7-fév-2022
Résumé: الملخص (بالعربية) : في هذا الرسالة قمنا باستغلال ميزات تكنولوجيا التنقيب في البيانات لاستخراج المعلومات حول وضعية الرأس انطلاقا من صور الوجه بهدف تكوين نموذج تصنيف يسمح باعتماد توجيه وضع الرأس. هدفنا الأول هو توضيح فائدة توظيف تقنيات البحث في البيانات وبالتالي المسافات الرمزية الفاعل لغايات الترتيب والتصنيف ولهذا الغرض استعملت فقط المصنفات الكلاسيكية من قبيل -k-means, KNN, SVM لتصنيف وضعية الوجوه الأمامية والجانبية. كما تناولت مشكلة تغير الاضاءة، ولتجاوز هذا العائق قمت بمعالجة أولية لصورة المدخلات حيث استعملنا الصورة التدرج و صورة الناتجة من اذماج Local Binary Pattern (LBP) مع dynamic morphological quotient image (DMQI-LBP) اللذان يمثلان آلية توصيف ممتازة حيت انهما لا يتأثر بتغييرات الإضاءة. والنتائج المتحصّل عليها من التجارب تبيّن أن طريقة التي اقترحتها تحقق معدلات تصنيف جيدة و تسمح بتصنيف وترتيب الصور على حدة حتى في الظروف المتدهورة. أما بالنسبة للهدف الثاني ، فنقترح المزاوجة بين أفضلية التعليم العميق وتقنيات التصغير الحجمي المضمون بتمثيل التكرارات الزمنية للصور لنعلم الخصائص لتقدير دوران وضع الرأس مع هامش كبير للزوايا. حديثا، عرف التعلم العميق جهودا كبيرة وحقق نتائج باهرة في ميدان تقدير وضعية الرأس لكن هذه النماذج تعتبر مكلفة نظرا لارتفاع حجم المعايير والخصائص التي تحسب خلال التعلم (حجم الأوزان يضاهي المليار) بُعدُ أو حجم هذه المعايير يتطور نسبيا مع حجم المُدخَلات . هذا العائق خفّزني لاقتراح مقاربة تعتمد على توظيف تصغير الأبعاد مع السلاسل الزمنية نموذجا يتجاوز مقطع لمقطع Seq2Seqالذي يحاكي نموذج التعلم العميق للترجمة حيث يشفِرُ المشفر ويعرف العلاقة بين كلمات اللغة المصدر لتمثيلها بشعاع وفكّ الشفرة، يفككها إلى مقاطع كلمات اللغة المرغوب فيها. هنا تكون وضعية الوجه مماثلة لوضعية الكلمات في الجملة ، إذن من المهم تحليل وضعيات الوجه مع الأخذ بعين الاعتبار السياق ، لهذا نحن تحفزت لاستعمال مشفر –فاك الشفرة. في هذه المرحلة النهائية لإنجاز النموذج. - Seq2Seq – أنشأنا مصنف وضع الرأس يسمى (SAX-RED) أين تمثل المقاطع الرمزية (SAX) ، مدخل التشفير وفاك الشفرة يولِد مقاطع مُخرجَات تشكل هذه الأخيرة تسمية خاصة لوضع الرأس في الصور. الكلمات المفتاحية : تقدير وضعية, الراس السلاسل الزمنية, مشفر –فاك الشفرة, التعلم العميق ---------------------------------------------- Résumé (en Français) : Cette thèse exploite les avantages de la technologie de fouille de données pour extraire des informations sur la pose de la tête à partir des images du visage dans le but de construire un modèle de classification qui infère l’orientation de la pose de la tête. Notre premier objectif est de montrer l’utilité d’utiliser les techniques de fouille de données symboliques pour classer les poses du visage dans n’importe quel ensemble de données, et donc les distances symboliques efficaces à des fins de classification. Nous avons utilisé des classificateurs classiques tels que Kmeans, KNN, et SVM pour classer les poses du visage de frontale vs de profil. En outre, nous avons abordé le problème des changements d’illumination, nous avons proposé pour surmonter ces problèmes d’effectuer un prétraitement à l’image d’entrée, où nous avons utlisé l’image gradient et l’image traitée avec le Local Binary Pattern (LBP) combiné avec dynamic morphological quotient image (DMQI-LBP), qui sont des descripteurs robustes aux changements d’éclairage. Les résultats de ces expériences ont montré que notre approche est robuste et permet de classifier séparément les poses même dans des conditions dégradées. Pour le deuxième objectif, nous avons suggéré de combiner le privilège de l’apprentissage profond avec une technique de réduction de dimensionnalité assurée par la représentation de série chronologique des images pour apprendre les caractéristiques appropriées pour estimer la rotation de la pose de la tête avec un large plage d’angles (rotation de pan et tilt). Récemment, l’apprentissage profond a vécu un considérable progrès et a atteint des performances exceptionnelles dans le domaine d’estimation de la pose de la tête. Cependant, ces modèles sont coûteux en calcul en raison de la haute dimensionnalité des paramètres et des caractéristiques qui sont calculés lors de l’apprentissage (la dimension des poids est de l’ordre du milliard). La dimension de ces paramètres se progresse proportionnellement à la dimension des données d’entrée. Motivés par cet obstacle, nous avons proposé une approche basée sur l’utilisation de la réduction de dimensionnalité avec les séries temporelles. Notre modèle émule le modèle Sequence-to-Sequence (Seq2Seq), qui est conçu pour les modèles de traduction automatique. Sequence-to-Sequence est un modèle d’apprentissage profond dans lequel l’encodeur encode et apprend la relation entre les mots de la langue source pour la présenter en un vecteur et le décodeur la décode en une séquence de mots dans la langue souhaitée. Ici, les positions des visages sont équivalentes aux positions des mots dans une phrase. Il est donc utile d’analyser les positions des visages en tenant compte du contexte. Pour cette raison, nous sommes motivés par l’utilisation d’un encodeur-décodeur Seq-to-Seq dans notre implémentation. Nous avons construit un classificateur de la pose de la tête appelé SAX-RED, où les séquences symboliques SAX seraient l’entrée de l’encodeur et le décodeur génère les séquences de sortie qui présentent les labels des poses de la tête. Les mots clés : Estimation de la pose de visage, séries temporelles, encodeur-décodeur ---------------------------------------------- Abstract (en Anglais) : This thesis leverages data mining technologies to extract head pose information from face images to build a classification model that infers the head pose orientation. To reach this purpose, we propose the SAX2FACE approach, an effortless and efficient alternative solution that relies on a time series dimensionality reduction method (SAX method) to address the problem of head pose rotation. We have mapped face images into a one-dimensional vector as time series using the Peano-Hilbert and Sweep space-filling curves. These numerical series are then converted to symbolic sequences through symbolic aggregate approximation (SAX). Our first objective is to highlight the usefulness of using powerful symbolic data mining techniques to classify face poses in any database, and thus getting effective symbolic distances for classification purposes. We have resorted to classic classifiers such as K-means, KNN, and SVM to classify frontal vs. profile face poses. Besides, we have tackled the illumination changes problem. While we have proposed to overcome these problems by processing the input image with the gradient image and the Local Binary Pattern (LBP) combined with dynamic morphological quotient image (DMQI-LBP), which are robust descriptors to changes in illumination. The results of these experiences have shown that our approach is robust and allows us to separately classify the poses even in degraded conditions. For the second objective, we have suggested combining the expressive power of deep learning with dimensionality reduction technique with time series representation of the images for learning the suitable features to estimate the head pose rotation with a large angles range (in yaw and pitch rotation). Lately, deep learning has witnessed huge progress and has achieved exceptional resorted only to for head pose estimation models. However, it is computationally costly due to the high dimensionality of the parameters and the features that are calculated in training (the dimension of the weights is in the order of the billion). The dimension of these parameters progresses proportionally with the dimension of the input data. Spurred with this obstacle, we propose a new approach based on the use of dimensionality reduction with time series. The model emulates the sequence-to-sequence recurrent neural network that is introduced to deal with Machine Translation (NMT) model. Sequence-to-Sequence is a deep learning model that the encoder recurrent neural network encodes and learns the relationship between words of the source language to present it into a vector, and the decoder decodes it into a sequence of words in the desired language. Here, the positions of the faces are similar to the positions of the words in a sentence. Hence, analysing the positions of the faces by taking into account that the context is useful. This is why we are motivated by the use of Seq2Seq encoder–decoder in our implementation. We built a classifier of the head pose called SAX-RED, where the SAX symbolic sequences would be the input layer of the encoder, and the decoder generates the output sequences which present the labels of head pose. Keywords : head pose estimation, deep learning , symbolic aggregate approximation ,Seq2Seq
Description: Doctorat en sciences
URI/URL: http://hdl.handle.net/123456789/3593
Collection(s) :Electronique

Fichier(s) constituant ce document :

Fichier Description TailleFormat
DS_ELN_MEKAMI_Hayat.pdf21,84 MBAdobe PDFVoir/Ouvrir
View Statistics

Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

 

Ce site utilise la plate-forme Dspace version 3.2-Copyright ©2014.