Titre : | Les arbres de decisions fonde sur les index bitmaps |
Auteurs : | Hadj ali El merahi,, Auteur ; Houria Touaibia, Auteur ; Radja Marouf,, Auteur |
Type de document : | texte manuscrit |
Editeur : | Université mustapha stambouli de Mascara:Faculté des sciences exactes, 2018 |
ISBN/ISSN/EAN : | SE00561T |
Format : | 76 P: / ill., couv. ill. en coul. / 29 cm. |
Langues: | Français |
Résumé : |
Les arbres de décision présentent plusieurs avantages : il s'agit en effet d'un modèle non paramétrique, facilement compréhensible et traduisible en une base de règles. Il supporte bien les multi-classes et il est insensible aux variables redondantes. Mais ses meilleurs performances ne sont atteintes que lorsqu'il est appliqué sur des bases de données volumineuses, dans le cas contraire, le modèle peut souffrir d'instabilité. Les arbres de décisions sont connus également par leur forte dépendance vis-à-vis des données d'apprentissage et par la forte probabilité de tomber dans le sur-apprentissage. Pour contourner ces limites, la notion de forêts aléatoires [15] est introduite. A partir de la même base d'apprentissage, au lieu d'induire un seul arbre de décision, le concept des forêts aléatoires consiste en induire plusieurs. Une multitude de méthodes existent dans la littérature pour construire un ensemble de classifieurs. Comme nous l'avons déjà mentionné, Breiman en a utilisé deux pour les constructions des arbres de décisions de ses forêts : le bagging et le "Random Feature Selection". Pour valider notre méthode, nous avons implémenté la méthode ID3 sous deux formes en langage JAVA elle de de « ID3 classique » et « ID3 bitmap ». Les tests que nous avons réalisés montrent que les temps de traitement de notre méthode augmentent de façon linéaire avec la taille de la base. Mais contrairement aux méthodes de fouille opérant en mémoire, nous ne sommes pas limités par la taille des bases à traiter. En outre, notre méthode présente des temps de traitement acceptables lorsque le volume de données augmente sensiblement. Nous avons également réalisé une étude de complexité qui permet de déterminer sous quelles conditions notre méthode est pertinente, et une étude de performance de système de prédiction en termes du matrice de confusion 2. Contributions Nous pouvons développées cette méthode qu’elle offre une solution générale au problème de la fouille dans les grandes bases de données. Elle permet d’une part de traiter des bases d’apprentissage sans limitation de taille, et d’autre part d’obtenir des temps de traitement acceptables. Notre méthode permet de construire des arbres de décision au en utilisant que les index bitmap, contrairement aux méthodes intégrées de fouille de données proposées dans la littérature. La base d’apprentissage initiale est remplacée par l’ensemble de ses index bitmap. Les effectifs des différentes populations de l’arbre de décision sont obtenus facilement par application des opérations logiques et de comptage sur les bitmaps. Ainsi, il n’est pas nécessaire d’accéder aux données de la base. Nous faisons une comparaison entre les deux méthodes et nous montrons que, grâce aux index bitmap, nous réduisons à la fois la taille de la base d’apprentissage et les temps de traitements. 3. Perspectives Ce travail ouvre de nombreuses perspectives de recherche. Nous projetons de tester notre méthode sur d’autres bases de données réelles et de mesurer l’impact, en termes de performance, de paramètres tels que le nombre d’attributs et leur cardinalité. Par ailleurs, notre méthode peut être facilement adaptée à d’autres méthodes de type "arbres de décision". Par exemple, il suffit d’utiliser l’opérateur logique OR dans le cadre de méthodes utilisant le regroupement de modalités. Nous pouvons aussi intégrant ces algorithmes au cœur des SGBD, en utilisant uniquement les outils fournis par ces derniers. Et dans ce cas peut comprendre les caractéristiques de la base de données elle-même. Par exemple, s'agit-il d'une base de données de traitement transactionnel en ligne (OLTP) dont les données sont souvent modifiées, ou d'une base de données d'aide à la décision (DSS) ou d'entreposage de données (OLAP) contenant essentiellement |
Exemplaires (2)
Code-barres | Cote | Support | Localisation | Section | Disponibilité |
---|---|---|---|---|---|
SE00561T | INF145 | Livre audio | Bibliothèque des Sciences Exactes | 7-Mémoires Master | Libre accès Disponible |
SE00864T | INF145 | Livre audio | Bibliothèque des Sciences Exactes | 7-Mémoires Master | Libre accès Disponible |
Aucun avis, veuillez vous identifier pour ajouter le vôtre !
Accueil