Titre : | Classification de la thématique d'un texte en Arabe par la méthode des SVM (Support Vector Machine) |
Auteurs : | Sid Ahmed Bellakhdar, Auteur ; Aouam, Mokhtar, Auteur ; Khalladi, Rachid, Directeur de thèse |
Type de document : | texte manuscrit |
Editeur : | Université mustapha stambouli de Mascara:Faculté des sciences exactes, 2018 |
ISBN/ISSN/EAN : | SE00587T |
Format : | 67 P. / ill / 29 cm. |
Langues: | Français |
Résumé : |
Dans le cadre de ce projet de Master, nous avons conçu et réalisé un système d'extraction de la thématique d'un texte arabe par la méthode des SVM multi-classes. Le système est composé de deux parties importantes : l'apprentissage et la prédiction. Ces deux parties utilisent un sous-système essentiel qui est le prétraitement. Nous avons montré comment un texte brut passe par plusieurs transformations pour devenir enfin un vecteur de poids. Le système réalisé a fait l'objet d'une évaluation sur des corpus de tests. Les résultats (taux de succès) sont encourageants, mais perfectibles. LES DIFFICULTES RENCONTREES : Nous avons dû affronter plusieurs difficultés, notamment : - L'absence d'un logiciel de normalisation des mots : c'est à dire un logiciel qui réduit chaque mot à sa forme normalisée (masdar). A l'heure actuelle aucun logiciel complet de ce type n'existe pour la langue Arabe. Pour contourner cette difficulté, nous avons eu recours à l'utilisation d'un thésaurus de masdars fait à l'extérieur du système. Nous avons consacré beaucoup de temps pour remplir la base de données avec l'aide de nos collègues pour enrichir la base de données - L'adaptation de la librairie Libsvm à notre cas d'étude : un temps important a été nécessaire pour étudier cette librairie pour la rendre fonctionnelle sur notre système. Il fallait régler beaucoup de détails techniques pour réussir l'interconnexion de cette librairie avec nos propres modules. Dans le cadre de ce projet de Master, nous avons conçu et réalisé un système d'extraction de la thématique d'un texte arabe par la méthode des SVM multi-classes. Le système est composé de deux parties importantes : l'apprentissage et la prédiction. Ces deux parties utilisent un sous-système essentiel qui est le prétraitement. Nous avons montré comment un texte brut passe par plusieurs transformations pour devenir enfin un vecteur de poids. Le système réalisé a fait l'objet d'une évaluation sur des corpus de tests. Les résultats (taux de succès) sont encourageants, mais perfectibles. LES DIFFICULTES RENCONTREES : Nous avons dû affronter plusieurs difficultés, notamment : - L'absence d'un logiciel de normalisation des mots : c'est à dire un logiciel qui réduit chaque mot à sa forme normalisée (masdar). A l'heure actuelle aucun logiciel complet de ce type n'existe pour la langue Arabe. Pour contourner cette difficulté, nous avons eu recours à l'utilisation d'un thésaurus de masdars fait à l'extérieur du système. Nous avons consacré beaucoup de temps pour remplir la base de données avec l'aide de nos collègues pour enrichir la base de données - L'adaptation de la librairie Libsvm à notre cas d'étude : un temps important a été nécessaire pour étudier cette librairie pour la rendre fonctionnelle sur notre système. Il fallait régler beaucoup de détails techniques pour réussir l'interconnexion de cette librairie avec nos propres modules. |
Exemplaires (2)
Code-barres | Cote | Support | Localisation | Section | Disponibilité |
---|---|---|---|---|---|
SE00587T | INF171 | Livre audio | Bibliothèque des Sciences Exactes | 7-Mémoires Master | Libre accès Disponible |
SE00878T | INF171 | Livre audio | Bibliothèque des Sciences Exactes | 7-Mémoires Master | Libre accès Disponible |
Aucun avis, veuillez vous identifier pour ajouter le vôtre !
Accueil