Les Techniques documentaires
(2024) - L'entrée de l'intelligence artificielle dans le monde de l'information-documentaire
publié dans la revue Hors-Texte n° 127, septembre 2024, p.7-11 (revue de l'AGBD)
3 développements du domaine
Parmi les nouvelles technologies qui entrent en force dans notre quotidien de professionnel.l.e.s de l’information-documentation, l’intelligence artificielle (IA) est celle qui (nous) pose le plus de questionnements. Pour certains, il s’agit d’une avancée considérable du progrès et des techniques, pour d’autres la régression de l’intelligence humaine est annoncée. Quelle est la vérité ? Il est certain que nul ne reste indifférent par rapport à l’IA. Cela demande quelques explications et développements, l’essentiel étant de bien saisir ce que l’IA peut apporter à nos pratiques professionnelles et à nos utilisateurs, comment nous pouvons en bénéficier et quelle est son utilité.
La technologie de l’IA est en passe de toucher (ou touche déjà) des aspects très différents des bibliothèques, à la fois en ce qui concerne le traitement de grands fonds documentaires que leur utilisation par des spécialistes ou des non spécialistes. Et la médiation elle-même. Passons en revue quelques possibilités offertes par l’IA[1].
L’exploration de corpus documentaires importants
Cette possibilité est certainement une des plus intéressantes qu’offre l’IA en bibliothèque, en documentation ou en archives : mais elle n’est pas nouvelle puisqu’au XXème siècle déjà, l’une des toutes premières applications de l’IA aux données de masse produites par les bibliothèques est la reconnaissance optique de caractères (OCR pour Optical Character Recognition) qui permet d’extraire le contenu de textes numérisés. Aujourd’hui, les données stockées deviennent exponentielles (références seules, texte intégral de documents, images ou vidéos, archives, réseaux sociaux…), elles peuvent se compter en milliards de données, la difficulté réelle étant d’arriver à en extraire des informations pertinentes. Le problème est le même avec l’interrogation simultanée de plusieurs bases de données : la recherche fédérée, ou les outils de découverte (discovery tools) proposés par les plateformes ou les fournisseurs de services présents sur le marché sont-ils fiables et couvrent-ils réellement les besoins ? On peut en douter : après une requête, un outil de découverte va proposer certes des résultats, mais sur un modèle déjà passé d’accumulation de données et d’informations. Pour une moisson plus exhaustive, l’IA permet d’activer des moyens de recherche couvrant des ensembles de données inégalées. Les bibliothèques municipales (mis à part les bibliothèques municipales classées - BMC en France) sont peut-être moins concernées que les bibliothèques patrimoniales ou de recherche, ou que les services d’archives. C’est tout du moins l’avis d’Hélène Girard, dans un article publié en 2023 (voir Bibliographie) et qui cite Nathalie Nosny, directrice du Département services et collections numérique de la Bibliothèque publique d’information (Bpi, Paris, Centre Beaubourg).
La plupart des moteurs de recherche actuels (Google, Bing…) agrègent la fonctionnalité IA, et notamment ChatGPT. Selon Pierre-Carl Langlais [2], « GPT, c’est Generative Pre-trained Transformer 3, un modèle géant de prédiction de texte entraîné par OpenAI sur 500 milliards de mots. GPT-3 est non seulement capable d’écrire correctement dans plusieurs langues mais c’est aussi un modèle encyclopédique qui intègre un grand nombre de références au monde réel (personnes, événements, connaissances scientifiques) qu’il restitue plus ou moins bien. »
On comprend donc bien que l’IA fournît des réponses en fonction de ce qui lui a été donné au départ et des associations que les algorithmes permettent. Il apparait aussi évident qu’un ou même plusieurs cerveaux humains ne peuvent effectuer ce travail d’analyse ou de synthèse aussi rapidement et sur une telle profondeur de textes ou de mots. Ici, l’IA est vue comme un véritable assistant de lecture et de recherche.
Le traitement de l’information textuelle, orale et des images
La technique de l’OCR déjà évoquée plus haut permet la mise en œuvre de la reconnaissance optique de mise en page (OLR pour Optical Layout Recognition) : cette technique rend possible la reconnaissance de documents complexes, on pense à la presse, à la mise en page en colonnes, à l’écriture manuscrite dite technique HTR (Handwritten Text Recognition). La parole enregistrée est également concernée, son analyse permettant de générer du texte. Avec l’IA, ces techniques vont encore plus loin : la comparaison des images est possible, ainsi que leur classement, leur étiquetage ou en générant des notices à partir d’un texte. Il s’agit donc d’une aide au catalogage. Certains éditeurs scientifiques tel AMdigital[3] utilise l’IA pour créer des métadonnées sur certaines de leurs collections en ligne et gagnent ainsi un temps considérable.
L’IA est une technologie dit « prédictive », elle autorise la comparaison d’informations répétitives. Cela peut se rapporter à des données de conservation qui, si elles signalent des dégradations consécutives de documents, peuvent engendrer des prises de décision et de pilotage pour le maintien de la collection. Un autre domaine d’application de l’IA est celui de la synthèse de documents. L’Institut national de l’audiovisuel (INA) en France combine plusieurs approches de l’IA : un programme de télévision subit une segmentation par sujets, détectant les personnes et isolant la parole. Des mots-clés et des résumés sont ensuite produits, que le-la documentaliste contrôle.
L’IA est de plus en plus utilisée dans l’éducation et l’enseignement, les enseignants pouvant grâce à elle bâtir leur plan de cours ou leur synthèse. Ils doivent cependant vérifier les références et les bibliographies produites, manquantes ou inexactes. Les étudiants sont dans le même cas. Concernant les écrits scientifiques, la revue Science indique qu’au moins 5% des articles scientifiques publiés en 2023 auraient été écrits avec l'aide de ChatGPT ou équivalent [4].
Dans les cas précédents, le rôle des professeurs-documentalistes ou des bibliothécaires universitaires est d’alerter étudiants et enseignants sur les dangers ou problèmes posés par l’IA, par rapport à la fraude ou au plagiat. La citation des sources est donc toujours autant essentielle car celles-ci ne sont pas citées par l’IA ou manquantes ou incomplètes voire inexactes ou inventées.
L’IA trouve aussi son utilité dans la médiation, l’éditorialisation, la valorisation des collections.
La médiation et la recherche d’information
La médiation sous le prisme de l’IA sera vue ici surtout en termes de recherche d’information. Même si la robotique et l’introduction de robots en bibliothèque donnent quelques possibilités d’interactions utilisateur-machine (au Japon, en Allemagne, à Singapour), celles-ci sont tout de même trop restreintes pour constituer un réel avantage. Elles se bornent souvent à ce que le robot fournisse des informations pratiques à l’utilisateur (horaires, orientations…).
Concernant la recherche d’information, la problématique est différente : un des enjeux majeurs posé par l’IA est celui des algorithmes utilisés par les moteurs de recherche. Le système de la recommandation est le plus connu par rapport à l’IA qui oriente uniquement selon les points d’intérêts du lecteur (« Vous avez aimé… donc vous aimerez…). Utilisée déjà depuis plusieurs années dans le domaine marchand, la recommandation est proposée par des librairies en ligne et par certains catalogues de bibliothèque qui intègrent cette fonctionnalité. A contrario, Gallica [5] de la BnF ne prend pas en compte le parcours usager : cet exemple est suffisamment intéressant pour être relevé. En effet, cela évite d’enfermer l’usager en ne l’orientant que vers ses points d’intérêts. Les algorithmes produisent des résultats selon certains critères qui ne sont pas explicités et sont opaques : l’évaluation des résultats d’une recherche s’avère essentielle par un.e professionnel.l.e de l’information. Cependant, les catalogues de bibliothèques actuels ou les logiciels documentaires n’utilisent encore que très peu l’intelligence artificielle, la fiabilité de leurs résultats apparait donc plus exacte que ceux produits par d’autres outils de recherche.
Le grand public devrait utiliser de plus en plus l’intelligence artificielle en tant qu’outil gratuit : c’est le cas déjà pour 50 % des Américains selon Technology Magazine [6]. Comment différencier le vrai du faux, éviter la copie intégrale de textes non sourcés, éliminer la fraude et le plagiat, thème récurrent à l’université ? Jusqu’à présent le rôle des bibliothécaires ou des documentalistes était assez clair dans ces différents cas de figure, dans leur action de recommandation, de conseil et d’orientation. Peuvent-ils-elles se mesurer à une machine qui apporte elle aussi des réponses personnalisées, sans intermédiaire et directement à l’utilisateur, en un temps record ? C’était déjà possible avec les moteurs de recherche type Google, cela va être encore plus facile avec l’intégration de l’IA dans ces moteurs.
Il va donc falloir que la valeur ajoutée des bibliothécaires et des documentalistes soit certaine dans ces cas précis : une des meilleures réponses à apporter est que les bibliothécaires s’approprient pleinement les outils de l’IA afin d’être aussi exhaustif que possible dans leurs réponses, tout en donnant les sources exactes, ce qui est un des défauts actuels de l’IA.
Il ne faut cependant pas cacher que la concurrence risque d’être rude. Mais si l’on reprend l’exemple des moteurs de recherche, ceux-ci n’ont pas supprimé pour autant les bibliothécaires.
cop. JP Accart
[1] Technologie en développement constant, cet article n’en est qu’un reflet forcément incomplet.
[2] Dans Innovations pédagogiques et transition, 9 février 2023, [en ligne], adresse URL : https://www.innovation-pedagogique.fr/article14078.html [consulté le 26 avril 2024]
[4] Science, Vol 384, Issue 6693. Should researchers use AI to write papers? Group aims for community-driven standards | Science | AAAS
[6] Adobe Report Highlights Growing Gen AI Adoption | Technology Magazine, 2 avril 2024
Copyright
L'utilisation des images et des textes du site requiert l'accord écrit de Jean-Philippe Accart et doit mentionner les données relatives aux droits d'auteur. Ce site suit les règles du RGPD.
Cop. 2024
Twitter
LinkedIn