Font Size: a A A

Le traitement des substantifs dans 'Le Robert - CD-ROM': Modelisation, formalisation et proposition methodologique en vue de son informatisation

Posted on:2002-02-22Degree:Ph.DType:Dissertation
University:Universite de Sherbrooke (Canada)Candidate:Masson, Chantal-EdithFull Text:PDF
GTID:1465390014451031Subject:Language
Abstract/Summary:
L'acquisition des connaissances (knowledge engineering) comporte trois activites: la modelisation, la formalisation et la representation. Les toutes premieres etapes de la modelisation etaient dirigees par le modele a priori. Le choix d'une strategie de formalisation et d'une notation representationnelle, lui, fut fait sur la base de l'importance de l'activite de structuration dans la tache lexicographique de niveau microstructurel et des intentions de la recherche (informatisation). C'est sur le langage de balisage structural XML (eXtensible Markup Language) que ce choix fut arrete.;Compte tenu du degre de finesse du modele vise, le traitement de toutes les parties du discours etait vite apparu impensable. Prenant en compte son interet lexicographique (plus grande representation, variabilite, polysemie, etc.), c'est le substantif qui fut retenu en exclusivite. Deux echantillons de 100 articles chacun furent tires de facon probabiliste (methode aleatoire simple) de la liste des substantifs du Petit Robert - CD-ROM, une version informatisee de la version imprimee utilisee a l'etape precedente. Le premier de ces echantillons etait destine a la modelisation proprement dite, et le second, a la validation du modele ainsi mis au jour. Le modele, en une logique liee au balisage structural, prenait la forme d'une DTD (une Declaration de Type de Document).;Traites par ordre croissant de difficulte, les articles de l'echantillon de modelisation furent deconstruits un a un en particules d'information hierarchisees, chacune de ces particules etant identifiee par une "etiquette" XML, structurellement assignee et assortie d'une cardinalite, factorisee et associee a des attributs au besoin, modularisee si l'economie du modele---la DTD---s'en voyait augmentee. A son tour, ce modele emergent prenait en charge le balisage d'un nouvel article; il pouvait en ressortir enrichi et amende. A chaque modification du modele, tous les mots deja traites etaient rebalises, et ce, afin de tester l'adequation du modele et d'assurer la validite des documents XML.;L'hypothese initiale comportait 2 volets. Le premier supposait que l'"occultation" de la methode lexicographique n'etait pas deliberee mais liee a la nature meme des connaissances qui en limitait l'expression, que la methode de traitement des informations au niveau microstructurel etait bien reelle, qu'elle etait suivie avec constance, et qu'il etait possible de la retracer en bonne partie en deconstruisant ces resolutions de problemes expertes que sont des articles. Ce premier volet fut significativement demontre alors que le modele (la DTD) se montrait capable de diriger le traitement de 82 des 100 mots du second echantillon soit tel quel, soit avec des additions anticipees.;En prenant en compte le caractere evolutif de la langue, c'est-a-dire une part d'incertitude incompressible, le second volet de l'hypothese anticipait de l'inconstance dans le traitement. (Abstract shortened by UMI.)...
Keywords/Search Tags:Des, Le traitement, Formalisation et, Modelisation, Dans, De la, Que, Une
Related items