DSpace
 

Dspace de universite Djillali Liabes de SBA >
Thèse de Doctorat en Sciences >
Informatique >

Veuillez utiliser cette adresse pour citer ce document : http://hdl.handle.net/123456789/3309

Titre: Approches Méta-Heuristiques pour les Tâches de Classification
Auteur(s): BIDI, NORIA
Encadreur: ELBERRICHI, ZAKARIA
Mots-clés: Exploration de Données
Classification Supervisé
Sélection des Attributs
les Méta-heuristiques
KNN
SVM
NB
Date de publication: 18-jui-2018
Résumé: الملخص (بالعربية): في التنقيب عن البيانات ، تستخدم العديد من التقنيات لاستخراج معلومات مفيدة. واحدة من هذه التقنيات هي التصنيف. إن تصنيف الحجم الهائل للبيانات مهمة معقدة نظرا لوجود سمات زائدة وغير ذات صلة. للحصول على أفضل نماذج التصنيف، أصبح اختيار ميزة خطوة أساسية في المعالجة المسبقة للبيانات. \\في هذه الأطروحة، نقدم أولا خوارزميتين لاستدلال تسميان ( FS-PeSOA ) و ( FS-SLOA)، وسوف تكون مقترنة مع مصنفات مختلفة للعثور على أفضل الميزات و تحقيق أعلى دقة في التصنيف. بعد ذلك، نقوم بالتحقيق والمقارنة بين تهجين عدة طرق التصفية لاختيار الميزات و خوارزميات الاستدلال، بما في ذلك الارتباطات القائمة على اختيار ميزة (\textLR{ CFS }) ، وتحليل المكون الرئيسي (CFS) والإحصاءات ( X2 ) ( CHI) كجزء من طرق التصفية والخوارزمية الجينية (GA)، (FS-PeSOA ) و (FS-SLOA)، كجزء من الخوارزميات الاستدلالية. ولتقييم كل طريقة، نستخدم التحقق من صحة 5 أضعاف، والتحقق من 10 أضعاف والتقسيم البسيط للبيانات. وأخيرا، نقدم خوارزمية ( SLOA)لاكتشاف قواعد التصنيف، وهذه الخوارزمية تتبع نهج ميشيغان. وقد تم تجربة الخوارزميات المقترحة على مجموعات البيانات القياسية المعروفة (ويسكونسن سرطان الثدي، بيما السكري، ماس الثدييات، الأمراض الجلدية، ورم الكولون ومجموعات بيانات سرطان البروستاتا). النتائج التجريبية تثبت أن دقة التصنيف قوية لمجموعات البيانات المختلفة. ---------------------------------------------- Résumé (Français ) : Dans l’exploration de données, de nombreuses techniques sont utilisées pour extraire des informations utiles. L’une de ces techniques est la classification, la classification de volume massif de données est une tâche complexe en raison entre autres la présence d’attributs redondants et non pertinents. Pour obtenir les meilleurs modèles de classification, la sélection d’attributs est devenue une étape essentielle du prétraitement des données. Dans cette thèse, nous présentons deux nouveaux algorithmes adaptatifs appelés FSPeSOA (feature selection penguins search optimization algorithm) et FS-SLOA (feature selection seven spot ladybird optimization algorithm) qui sont des méthodes de sélection méta-heuristiques. Ils seront combinés avec différents classificateurs pour trouver les meilleures attributs, qui atteignent la plus grande précision dans la classification. Ensuite, nous étudions et comparons l’hybridation de plusieurs méthodes de filtrages et de méta-heuristiques, y compris la sélection d’attributs basée sur les corrélations (CFS), l’analyse de composantes principales (PCA) et les statistiques X2 (CHI) comme méthodes de filtrages et l’algorithme génétique (GA), FS-PeSOA et FS-SLOA comme méthodes méta-heuristiques. Pour l’évaluation de chaque approche, nous explorons l’utilisation de la validation croisée 5 fois, de la validation croisée 10 fois et la division simple de donné (90% pour les données d’apprentissage et 10% pour les données de test). Enfin, nous présentons l’algorithme SLOA pour découvrir les règles de classification, cet algorithme suit l’approche du Michigan. Nos approches proposées ont été expérimentées sur des ensembles de données de référence (Wisconsin Breast Cancer, Diabète Pima, Mammographie Mass, Dermatologie, Colon Tumor et Cancer de la Prostate). Les résultats expérimentaux prouvent que les précisions de classification sont puissantes pour les différents ensembles de données. ---------------------------------------------- Résumé (Anglais) : In data mining, many techniques are used to extract useful information. One of these techniques is the classification, the classification of the massive volume of data is a complex task due to the presence of redundant and irrelevant features. To obtain the best classification models, feature selection became an essential data pre-processing step. In this thesis, we first present two new adaptive algorithms called FS-PeSOA (Feature Selection Penguins Search Optimization Algorithm) and FS-SLOA (Feature Selection Seven Spot Ladybird Optimization Algorithm) which are meta-heuristics feature selection methods, they will be combined with different classifiers to find the best subset features, which achieve the highest accuracy in classification. Then, we investigate and compare the hybridization of several filters and meta-heuristics methods, including correlations based feature selection (CFS), principal component analysis (PCA) and the X2 statistics (CHI) as part of filters methods and the genetic algorithm (GA), FS-PeSOA and FS-SLOA as part for meta-heuristics methods. For the evaluation of each approach, we explore the use of 5-fold cross validation, 10-fold cross validation and simple split data (90% for train data and 10% for test data). Finally, we present SLOA algorithm to discover classification rules, this algorithm follows Michigan’s approach. Our proposed approaches have been experimented on well known benchmark datasets (Wisconsin Breast Cancer, Pima Diabetes, Mammographic Mass, Dermatology, Colon Tumor and Prostate Cancer data sets). Experimental results prove that the classification accuracies are powerful for different data sets. Keywords: Data Mining, Classification, Feature Selection, Meta-heuristics, Penguins Search Optimization Algorithm, Seven Spot Ladybird Optimization Algorithm, KNN, SVM, NB.
Description: Doctorat en sciences
URI/URL: http://hdl.handle.net/123456789/3309
Collection(s) :Informatique

Fichier(s) constituant ce document :

Fichier Description TailleFormat
DS_Inf_BIDI _NORIA.pdf672,2 kBAdobe PDFVoir/Ouvrir
View Statistics

Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

 

Ce site utilise la plate-forme Dspace version 3.2-Copyright ©2014.