7 janv. 2011

365 - Analyseurs sémantiques et classification des fichiers informatiques

Depuis quelques années, des solutions logicielles d’analyse sémantique du contenu de fichiers informatiques composés de textes sur le marché. Ces outils puissants sont en mesure d’évaluer la structure syntaxique d’une phrase à partir de son sens. Le contexte d’utilisation des concepts ayant plus de poids que celui des mots. Prenons par exemple le mot « TABLE » : selon les définitions proposées par le dictionnaire du correcteur orthographique Antidote RX, il peut signifier à la fois :

• un meuble : une table où on prend les repas;
• la nourriture servie sur ce meuble : les plaisirs de la table;
• le meuble et le repas servi dans un restaurant : la meilleure table en ville;
• l’ensemble des personnes qui prennent leur repas autour de ce meuble : elle amuse toute la table avec son humour;
• un meuble servant à d’autres usages que les repas : table de travail, une table de jeu…;
• une surface plane naturelle : une table de granit;
• la partie plane d’un objet : une table d’enclume;
• la partie d’un instrument de musique sur laquelle les cordes sont tendues;
• une surface plane rectangulaire de petites dimensions sur laquelle on écrivait : une table de cire;
• la présentation d’informations sous forme de liste ou de tableau : une table analytique, chronologique, une table des conjugaisons…;
• un ensemble de personnes réunies à des fins de discussion : une table de concertation;
• …

Dans tous les cas, le contexte est essentiel pour donner un sens aux mots. Or ces analyseurs sémantiques, produits d’intelligence artificielle et de traitement du langage naturel, peuvent devenir de puissants assistants pour la classification automatisée des fichiers informatiques existants et futurs. Le tout en lien avec un schéma de classification hiérarchique des documents administratifs. Encore faut-il que cette arborescence soit de qualité supérieure dans son architecture logique et dans l’énoncé significatif des rubriques qui la composent. Plus la structure de classification est complète et rédigée à partir du vocabulaire propre aux activités et aux processus d’affaires et de gestion interne de l’organisation, plus les suggestions de classification et de classement des documents technologiques seront pertinentes.

Encore une autre bonne raison pour concevoir et développer des plans de classification à partir de principes directeurs rigoureux.

Michel Roberge

2 commentaires:

J.B. a dit...

Ce que vous soulevez est très intéressant. J'étudie présentement en linguistique après un cours début de carrière en gestion documentaire. Je pense que les départements d'archivistique devraient considérer offrir des cours de lexicologie et de terminologie.

Les méthodes d'analyse du contenu sémantique des catégories pourraient, par exemple, s'avérer utile lors des entrevues pour la conception de calendriers de conservation.

Les exemples de "table" sont éloquents. Le sens du mot sera différent qu'il s'agisse d'un hôtel, d'une école de musique, d'un département de mathématiques ou d'un ministère.

Bien que ça ne prenne pas une tête à Papineau pour voir la différence, savoir qu'on évalue la catégorie d'un document selon un prototype ou un stéréotype dans la conception d'un plan de classification ou d'un calendrier peut être utile!

Regard de Janus a dit...

Merci de soulever ce lièvre. Depuis que les tenants du web sémantique nous vendent la compréhension « machinique » des textes, le bon peuple tombe dans le panneau d’une classification automatique qui serait la panacée face à l’abondance de l’information.

En réalité, il y a mélange des genres. Ces instruments sémantiques sont effectivement efficaces pour retrouver de « l’information », c'est-à-dire quelque chose qui concerne ma préoccupation du moment et qui peut éventuellement me fournir une donnée ou une idée, voire des idées quand je vais explorer les résultats de Google au-delà de la 10ème ligne.

Les plans de classement eux, servent à retrouver de la « documentation » c’est-à-dire des données fiables et validées émanant d’une autorité au sens large (c'est-à-dire quelqu’un ou une organisation autorisé(e) et/ou compétent(e)) et disposant d’une fiabilité ou d’une valeur contractuelle certaine.

Les moteurs de recherches, assistés de ces outils sémantiques qui arrivent sur le marché, sont certainement très efficaces pour retrouver de l’information, ils le sont nettement moins pour retrouver des documents au sens définis ci-dessus, pour la bonne raisons que ceux-ci ne sont pas forcément disponible sur le web. Quand bien même ils le seraient, ce qui tend de plus en plus à être le cas vu « l’internetisation » croissante de nos administrations, la simple recherche sur un terme, comme le montre votre billet, ne saurait en aucun cas informer sur le « statut » du document retrouvé, celui-ci ne pouvant, en l’état de la situation, qu’être inféré par la compréhension des métadonnées explicites ou implicites qui y sont attachées, inférence qui nécessite une « culture » documentaire que la plupart des internautes n’ont pas.
Il y a encore beaucoup à faire pour que cette méconnaissance ne nous fasse pas prendre les vessies informationnelles (avec la connotation de déchets) pour des lanternes documentaires (avec la connotation de lumière).

@JB,
Je pense que vous avez raison quand vous dite que les archivistes auraient tout à gagner à enrichir leur connaissance en linguistique, mais pas tant pour utiliser ces outils que pour comprendre à quel point on peut en abuser, comme je le décris ci-dessus. La plupart des producteurs de documents ignorent que la manière de dénommer leurs documents induit une modalité de classification qui peut s’avérer pernicieuse pour l’avenir de leur conservation. C’est le travail de Sysiphe quotidien des records managers consciencieux.