Analyses d'ouvrages
2001: Les Nouvelles formes de l'écrit et du document
sous la dir. de H. Emptoz et N. Vincent
Lausanne, Lyon : Presses polytechniques et universitaires romandes ; INSA, 2000. 484 p.
(Collection des sciences appliquées de l'INSA de Lyon)
Bibliogr., index.- ISBN 2-88074-460-1
La manifestation CIFED'2000 qui s'est tenue à Lyon en 2000 fait suite à une série de colloques nationaux sur l'écrit et le document organisés à l'initiative du Groupe de recherche en communication écrite (GRCE). Elle rassemblait chercheurs, universitaires, industriels, documentalistes, bibliothécaires...
Les thèmes traités dans les quarante-cinq communications rassemblées dans ces actes sont très diversifiés : traitement, analyse et reconnaissance d'images de documents ; numérisation de documents ; indexation et numérisation ; modes de production, de segmentation et de reconnaissance de l'écrit ; vérification des signatures manuscrites ; document papier et multimédia. Ils sont illustrés par de nombreux exemples ou expériences en cours dans les laboratoires de recherche. Parmi ceux-ci, voici quelques exemples significatifs qui montrent l'intégration de plus en grande de techniques ou de recherches autrefois séparées.
Un Système de gestion de documents multimédia (SGDM), système permettant d'interroger un corpus de documents multimédia, repose sur une architecture complexe qui intègre différentes problématiques : l'indexation, la segmentation ; l'annotation et la génération de métadonnées ; et enfin l'interrogation multimédia. Ce système est l'héritier de systèmes que connaissent bien les documentalistes, les SGBD (Systèmes de gestion de bases de données et les SRI (Systèmes de recherche d'information). De nombreuses compétences sont donc nécessaires à l'élaboration d'un niveau supérieur à ceux déjà existants.
Une des questions essentielles que pose la numérisation de documents (écrits, images, sons) est celle de la survie de l'information. Dans un siècle ou plus, pourra-t-on encore les consulter ? Il n'y a pas de réponse précise à ce sujet, mais un certain nombre de recherches sont menées actuellement. Le centre de recherche de la société IBM situé en Californie étudie cette question et fait plusieurs propositions en ce sens : une approche générale utilisant un modèle de description logique et permanent des données pourrait être conçu en s'appuyant sur une machine virtuelle universelle. Un archivage à long terme doit distinguer l'archivage des données et celui des programmes informatiques. Les métadonnées, qui contiennent une description textuelle de ce que les données représentent et de leur organisation, s'appuieraient sur un programme général, celui-ci pouvant lire et décoder les données en accord avec ces métadonnées. Pour les programmes informatiques, la démarche consiste à sauvegarder le programme original, accompagné d'un programme spécifique chargé d'interpréter et d'émuler chacune des instructions de la machine originale.
France Télécom développe, avec le projet NATALI (Numérisation et analyse pour le traitement automatique et la lecture de l'itinéraire), une technique originale de reconnaissance de formes dites formes multi-orientées et multi-échelles. Cette technique a pour but l'interprétation de plans techniques décrivant l'itinéraire des câbles téléphoniques et des diverses infrastructures sur le territoire français.
Outre les métadonnées ou les plans techniques, le document multimédia intègre également les cartes, les plans de villes, les documents publicitaires, les pages web... Des recherches portent sur la manière d'extraire l'information contenue dans ces documents. Des méthodes sont proposées : extraction de textes courts (un nom de ville) ; vectorisation des éléments d'une carte en vue de distinguer les régions de végétation (dans le cadre de l'Institut géographique national - IGN) ; étiquetage linguistique afin de reconnaître la structure des articles des tables des matières ; reconnaissance automatique de formulaires " papier ".
Quelle méthode utiliser pour la reconnaissance de textes issus de documents multilingues, imprimés ou manuscrit, contenant à la fois du latin et de l'arabe ? Le Laboratoire Perception, Système, Information (PSI) de l'Université de Rouen et le Groupe de recherche sur les machines intelligentes (REGIM) de l'Université de Sfax en Tunisie proposent trois niveaux d'analyse des textes manuscrits : au niveau d'une masse connexe, d'une ligne ou d'un bloc de texte. Ces trois niveaux sont mis en interaction par un module d'analyse de documents. Quatre cents documents latins et arabes ont été étudiés et les résultats présentés lors de la conférence montrent que malgré des confusions possibles dues à l'aspect cursif des caractères dans ces deux langues, le module différencie les langues avec un taux de discrimination de 89 %. Au travers de cet exemple, il est intéressant de signaler que de nombreuses recherches portent sur la langue arabe et parmi elles sur la reconnaissance de l'écriture arabe.
D'autres thèmes de recherche sont développés, notamment par rapport à l'analyse de l'écriture manuscrite, mais aussi l'analyse de textes imprimés, de publications savantes, d'objets mathématiques, d'images de télécopies, de plans cadastraux... La majorité de ces recherches s'appuie sur le développement d'un logiciel spécifique.
Malgré des aspects techniques parfois ardus pour le néophyte, ces actes du CIFED'2000 montrent la complexité des documents et leurs multiples formes, l'interaction trouvée entre des disciplines connexes et finalement complémentaires. Ils montrent également que tout document présente un cycle de vie, de sa naissance à son utilisation pour des fins très diverses jusqu'à son archivage. Mais le cycle du document ne s'arrête pas pour autant avec son archivage. D'autres questions sont soulevées auxquelles les chercheurs tentent de répondre. Lieu de rencontres et d'échanges francophone, le CIFED présente les résultats de recherches en cours qui dénote un dynamisme certain de la communauté scientifique.
Critique parue dans Documentaliste, sciences de l'information, 2001, vol. 38, n° 3-4, pp.230-231.
Cop. JP Accart, 2007
LinkedIn