DSpace
 

Dspace de universite Djillali Liabes de SBA >
Thèse de Doctorat en Sciences >
Informatique >

Veuillez utiliser cette adresse pour citer ce document : http://hdl.handle.net/123456789/2645

Titre: Qualité de données pour l’intégration de données
Auteur(s): OUHAB Abdelkrim
encadreur: Pr. MALKI Mimoun
Mots-clés: جودة المعطياٌت ، إدماج المعطياٌت ، التعلم الأوتوماتيكٌي ، التصنيفٌ ، الكشف عن البياٌنات المكررة
: qualité de données, intégration des données, apprentissage automatique, classification, résolution d'entité, détection des doublons.
data quality, data integration, machine learning, classification, entity resolution, duplicate detection.
Date de publication: 28-jui-2019
Résumé: -------------------------------------------------------------------------------------------------------resume en arabe--------------------------------------------------------------------------------------------نٌطوي إدماج المعطياٌت على جمع المعطياٌت من مصادر معطيات متعددة غيرٌ متجانسة لتوفيرٌ رؤيةٌ موحدة للمعطياٌت المتاحة لتطبيقٌ ما أو للمستخدم النهائيً . لكن، قد تتدهور جودة المعطياٌت المدمجة بسبب وجود نسخ مكررة مع الأخطاء الإملائية والاختصارات والقيمٌ المتضاربة ، الخ . يعٌد كشف المعطياٌت المكررة خطوة مهمة في إدماج المعطياٌت وتنظيفٌ المعطياٌت والذي يؤٌدي إلى تحسينٌ جودة المعطياٌت من خلال تحديدٌ المعطياٌت التي تمثل نفس الكياٌن الحقيقٌيً. في هذه الأطروحة، نقترح نظامًا أوتوماتيكٌياٌ لكشف المعطيات لمكررة و ذلك لمصادر المعطياٌت الإنجليزية والعربيةٌ، و مستقلًا عن المجال الذي تٌم فيهٌ كشف المعطياٌت المكررة. بالنسبة للتشغيلٌ الأوتوماتيكٌي ،ً قٌوم النظام بإنشاء مجموعة من معطياٌت التعلم أوتوماتيكٌياٌ، والت تٌم استخدامها بعد ذلك لتعلم نموذج التصنيفٌ. لدعم اللغة العربيةٌ، سٌتعمل النظام المقترح نظام Unicode . بالنسبة للاستقلاليةٌ عن المجال ، لا يسٌتخدم النظام أي معرفة مسبقة عن المجال، كما تم تقيمٌ النظام المقترح في ثلاث حالات اختبار باللغة العربيةٌ وأربعة حالات اختبار باللغة الإنجليزٌيةٌ. --------------------------------------------------------------------------------------------------------resume en français----------------------------------------------------------------------------------------L'intégration de données consiste à combiner les données de plusieurs sources de données hétérogènes pour fournir une vue unifiée des données disponibles à une application ou à un utilisateur final. Cependant, la qualité des données intégrées peut être dégradée en raison de la présence de doublons avec des fautes d'orthographe, des abréviations, des valeurs contradictoires, etc. La résolution d'entité est une étape importante dans l’intégration de données et le nettoyage de données. Elle permet d’améliorer la qualité des données en identifiant les enregistrements qui représentent la même entité du monde réel. Dans cette thèse, nous proposons un système de résolution d'entité entièrement automatique qui prend en charge les sources de données en anglais et en arabe, et indépendant au domaine dans lequel s’effectue la résolution d’entité. Pour l’automatisation, le système génère automatiquement un ensemble de données d’apprentissage, qui est ensuite utilisé pour apprendre un modèle de classification. Pour prendre en charge la langue arabe, le système utilise le système Unicode. Pour l’indépendance au domaine, le système n’utilise aucune connaissance préalable du domaine et il est évalué sur trois cas de test en arabe et quatre cas de test en anglais. ------------------------------------------------------------------------------------------------------resume en anglais-------------------------------------------------------------------------------------------Data integration involves combining data from multiple heterogeneous data sources to provide a unified view of the data available to an application or end user. However, the quality of the integrated data may be degraded due to the presence of duplicates with spelling errors, abbreviations, conflicting values, etc. Entity resolution is an important step in data integration and data cleansing. It improves data quality by identifying records that represent the same real-world entity. In this thesis, we propose a fully automatic entity resolution system that supports data sources in English and Arabic, and independent of the domain in which entity resolution takes place. For automation, the system automatically generates a training set, which is then used to learn a classification model. To support the Arabic language, the system uses the Unicode system. For domain independence, the system does not use any prior knowledge of the domain and is evaluated on three test cases in Arabic and four test cases in English.
Description: Doctorat en sciences
URI/URL: http://hdl.handle.net/123456789/2645
Collection(s) :Informatique

Fichier(s) constituant ce document :

Fichier Description TailleFormat
These_ouhab_final.pdf1,55 MBAdobe PDFVoir/Ouvrir
View Statistics

Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

 

Ce site utilise la plate-forme Dspace version 3.2-Copyright ©2014.