Exploitation des arbres frequents de dependance pour la representation et la classification automatique de textes

Posted on:2009-06-21

Degree:M.Sc

Type:Thesis

University:Universite de Sherbrooke (Canada)

Candidate:Meghaoui, Ali

Full Text:PDF

GTID:2448390002499197

Subject:Information Science

Abstract/Summary:

L'integration de l'information syntaxique dans la representation vectorielle des documents s'est averee une source d'amelioration de la performance des systemes de classification automatique de documents textuels. Cette information est souvent representee sous forme d'arbres de dependance qui peuvent etre generes automatiquement par un analyseur syntaxique de la langue naturelle.;Dans ce travail, nous proposons un nouveau modele de representation des documents basee sur l'extraction des sous-arbres frequents d'arbres de dependance en utilisant l'algorithme de fouille d'arbres FREQT, que nous avons adapte a nos besoins. Dans ce modele, un document est represente par l'ensemble de ses phrases, et chaque phrase est representee a l'aide d'un ensemble de sous-arbres frequents.;Afin d'appliquer efficacement cette representation a la classification automatique non supervisee (ou clustering) de documents, nous proposons une nouvelle mesure de similarite entre documents basee sur notre methode de representation. Ainsi, nous construisons un systeme de clustering de documents qui englobe notre methode de representation, notre mesure de similarite et l'algorithme de clustering hierarchique par agglomeration. Nous evaluons notre systeme sur des collections de textes bien connues dans la communaute de la classification de textes: la collection Reuters-21578, 20Newsgroups et OHSUMED. Nous montrons sur ces donnees que notre methode ameliore le clustering de documents. Nous presentons egalement une evaluation des approches existantes de representation des documents.

Keywords/Search Tags:

Des, Representation, Documents, Classification automatique, La classification, De dependance, Nous, Notre methode

Related items

1	Adaptation de l'algorithme des k-voisins les plus proches pour la classification automatique de textes (French text)
2	Classification non supervisee des donnees de hautes dimensions et extraction des connaissances dans les services Web de question-reponse
3	Title Classification Research Of Collected Documents Based On Subject Matching
4	Vers une methode de classification de fichiers sonores
5	Schemas de classification et reperage des documents administratifs electroniques dans un contexte de gestion decentralisee des ressources informationnelles
6	Face Representation And Classification Based On Reconstruction Representation
7	Automating Derivative Classification in Multi-Level Secure Documents
8	Study Of Classification Problems Based On Sparse Representation And Ensemble Learning
9	A Research On Automatic WEB Documents Extraction And Classification
10	Research On The Musical Genre And Instruments Classification Based On Sparse Representation-based Classification Via L～1-minimization