|
Dspace de universite Djillali Liabes de SBA >
Thèse de Doctorat en Sciences >
Informatique >
Veuillez utiliser cette adresse pour citer ce document :
http://hdl.handle.net/123456789/3309
|
Titre: | Approches Méta-Heuristiques pour les Tâches de Classification |
Auteur(s): | BIDI, NORIA Encadreur: ELBERRICHI, ZAKARIA |
Mots-clés: | Exploration de Données Classification Supervisé Sélection des Attributs les Méta-heuristiques KNN SVM NB |
Date de publication: | 18-jui-2018 |
Résumé: | الملخص (بالعربية):
في التنقيب عن البيانات ، تستخدم العديد من التقنيات لاستخراج معلومات مفيدة. واحدة من هذه التقنيات هي التصنيف. إن تصنيف الحجم الهائل للبيانات مهمة معقدة نظرا لوجود سمات زائدة وغير ذات صلة. للحصول على أفضل نماذج التصنيف، أصبح اختيار ميزة خطوة أساسية في المعالجة المسبقة للبيانات. \\في هذه الأطروحة، نقدم أولا خوارزميتين لاستدلال تسميان ( FS-PeSOA ) و ( FS-SLOA)، وسوف تكون مقترنة مع مصنفات مختلفة للعثور على أفضل الميزات و تحقيق أعلى دقة في التصنيف. بعد ذلك، نقوم بالتحقيق والمقارنة بين تهجين عدة طرق التصفية لاختيار الميزات و خوارزميات الاستدلال، بما في ذلك الارتباطات القائمة على اختيار ميزة (\textLR{ CFS }) ، وتحليل المكون الرئيسي (CFS) والإحصاءات ( X2 ) ( CHI) كجزء من طرق التصفية والخوارزمية الجينية (GA)، (FS-PeSOA ) و (FS-SLOA)، كجزء من الخوارزميات الاستدلالية. ولتقييم كل طريقة، نستخدم التحقق من صحة 5 أضعاف، والتحقق من 10 أضعاف والتقسيم البسيط للبيانات. وأخيرا، نقدم خوارزمية ( SLOA)لاكتشاف قواعد التصنيف، وهذه الخوارزمية تتبع نهج ميشيغان. وقد تم تجربة الخوارزميات المقترحة على مجموعات البيانات القياسية المعروفة (ويسكونسن سرطان الثدي، بيما السكري، ماس الثدييات، الأمراض الجلدية، ورم الكولون ومجموعات بيانات سرطان البروستاتا). النتائج التجريبية تثبت أن دقة التصنيف قوية لمجموعات البيانات المختلفة.
----------------------------------------------
Résumé (Français ) :
Dans l’exploration de données, de nombreuses techniques sont utilisées pour extraire des informations utiles. L’une de ces techniques est la classification, la classification de volume massif de données est une tâche complexe en raison entre autres la présence d’attributs redondants et non pertinents. Pour obtenir les meilleurs modèles de classification, la sélection d’attributs est devenue une étape essentielle du prétraitement des données.
Dans cette thèse, nous présentons deux nouveaux algorithmes adaptatifs appelés FSPeSOA (feature selection penguins search optimization algorithm) et FS-SLOA (feature selection seven spot ladybird optimization algorithm) qui sont des méthodes de sélection méta-heuristiques. Ils seront combinés avec différents classificateurs pour trouver les meilleures attributs, qui atteignent la plus grande précision dans la classification. Ensuite, nous étudions et comparons l’hybridation de plusieurs méthodes de filtrages et de méta-heuristiques, y compris la sélection d’attributs basée sur les corrélations (CFS), l’analyse de composantes principales (PCA) et les statistiques X2 (CHI) comme méthodes de filtrages et l’algorithme génétique (GA), FS-PeSOA et FS-SLOA comme méthodes méta-heuristiques. Pour l’évaluation de chaque approche, nous explorons l’utilisation de la validation croisée 5 fois, de la validation croisée 10 fois et la division simple de donné (90% pour les données d’apprentissage et 10% pour les données de test).
Enfin, nous présentons l’algorithme SLOA pour découvrir les règles de classification, cet algorithme suit l’approche du Michigan. Nos approches proposées ont été expérimentées sur des ensembles de données de référence (Wisconsin Breast Cancer, Diabète Pima, Mammographie Mass, Dermatologie, Colon Tumor et Cancer de la Prostate). Les résultats expérimentaux prouvent que les précisions de classification sont puissantes pour les différents ensembles de données.
----------------------------------------------
Résumé (Anglais) :
In data mining, many techniques are used to extract useful information. One of these
techniques is the classification, the classification of the massive volume of data is a complex
task due to the presence of redundant and irrelevant features. To obtain the best
classification models, feature selection became an essential data pre-processing step.
In this thesis, we first present two new adaptive algorithms called FS-PeSOA (Feature
Selection Penguins Search Optimization Algorithm) and FS-SLOA (Feature Selection
Seven Spot Ladybird Optimization Algorithm) which are meta-heuristics feature selection
methods, they will be combined with different classifiers to find the best subset
features, which achieve the highest accuracy in classification. Then, we investigate and
compare the hybridization of several filters and meta-heuristics methods, including correlations
based feature selection (CFS), principal component analysis (PCA) and the X2
statistics (CHI) as part of filters methods and the genetic algorithm (GA), FS-PeSOA
and FS-SLOA as part for meta-heuristics methods. For the evaluation of each approach,
we explore the use of 5-fold cross validation, 10-fold cross validation and simple split
data (90% for train data and 10% for test data).
Finally, we present SLOA algorithm to discover classification rules, this algorithm follows
Michigan’s approach. Our proposed approaches have been experimented on well
known benchmark datasets (Wisconsin Breast Cancer, Pima Diabetes, Mammographic
Mass, Dermatology, Colon Tumor and Prostate Cancer data sets). Experimental results
prove that the classification accuracies are powerful for different data sets.
Keywords: Data Mining, Classification, Feature Selection, Meta-heuristics, Penguins
Search Optimization Algorithm, Seven Spot Ladybird Optimization Algorithm, KNN,
SVM, NB. |
Description: | Doctorat en sciences |
URI/URL: | http://hdl.handle.net/123456789/3309 |
Collection(s) : | Informatique
|
Fichier(s) constituant ce document :
|
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.
|