Font Size: a A A

Exploitation des arbres frequents de dependance pour la representation et la classification automatique de textes

Posted on:2009-06-21Degree:M.ScType:Thesis
University:Universite de Sherbrooke (Canada)Candidate:Meghaoui, AliFull Text:PDF
GTID:2448390002499197Subject:Information Science
Abstract/Summary:
L'integration de l'information syntaxique dans la representation vectorielle des documents s'est averee une source d'amelioration de la performance des systemes de classification automatique de documents textuels. Cette information est souvent representee sous forme d'arbres de dependance qui peuvent etre generes automatiquement par un analyseur syntaxique de la langue naturelle.;Dans ce travail, nous proposons un nouveau modele de representation des documents basee sur l'extraction des sous-arbres frequents d'arbres de dependance en utilisant l'algorithme de fouille d'arbres FREQT, que nous avons adapte a nos besoins. Dans ce modele, un document est represente par l'ensemble de ses phrases, et chaque phrase est representee a l'aide d'un ensemble de sous-arbres frequents.;Afin d'appliquer efficacement cette representation a la classification automatique non supervisee (ou clustering) de documents, nous proposons une nouvelle mesure de similarite entre documents basee sur notre methode de representation. Ainsi, nous construisons un systeme de clustering de documents qui englobe notre methode de representation, notre mesure de similarite et l'algorithme de clustering hierarchique par agglomeration. Nous evaluons notre systeme sur des collections de textes bien connues dans la communaute de la classification de textes: la collection Reuters-21578, 20Newsgroups et OHSUMED. Nous montrons sur ces donnees que notre methode ameliore le clustering de documents. Nous presentons egalement une evaluation des approches existantes de representation des documents.
Keywords/Search Tags:Des, Representation, Documents, Classification automatique, La classification, De dependance, Nous, Notre methode
Related items