IA ET VALORISATION D’ARCHIVES
Compréhension automatique multimodale du langage pour de nouvelles interfaces intelligentes de recherche documentaire
Le programme Archival est dédié à la valorisation d'archives multimodales sur un corpus ouvert portant sur la thématique de l’autogestion. Il propose le développement de nouvelles formes d’accès aux fonds d’archives, grâce aux avancées dans les domaines de la Compréhension automatique des contenus (IA et NLP), de l’apprentissage de représentation et des interfaces multimodales.
En dépassant le cadre strict de l’extraction d’information pour tendre vers l’analyse sémantique profonde, le programme déploie de nouvelles technologies de compréhension multimodale multi-échelles intégrant le contexte de chaque document (notions, personnages, localisations) et permettant de générer dynamiquement des combinaisons, des multiples propositions de liens au fil de la consultation.
Archival est un projet ANR (Agence Nationale de la Recherche) porté par la Fondation Maison des Sciences de l'Homme, la chaire UNESCO ITEN (Innovation, Transmission, Edition Numérique),
avec les partenariats du groupe Orange, et de deux laboratoires informatiques du CNRS : LIS-Lab (Université d'Aix Marseille) et IRISA (Université de Rennes 1).
Archival engage la collaboration de chercheurs issus des Sciences de l’Information et de la Communication et de l’Informatique.
EXPLORER LES CONTENUS
Le programme Archival offre plusieurs modes d'accès aux ressources documentaires au sein d'un réseau de liens :
par des notions clés qui structurent la thématique de l'autogestion (élaboré à partir d'un thésaurus structurant 475 mots et locutions),
Génération automatique de liens
L'explicabilité au coeur du projet
Le programme Archival a pour objectif global de placer les ressources de l’IA au service de l’utilisateur, il porte une attention particulière à l’explicabilité du fonctionnement des algorithmes utilisés.
Cette approche vise à faciliter la compréhension des méthodes d’analyse des documents employées, à interpréter les résultats proposés, à favoriser la sélection et l’appropriation de ces nouveaux outils par les usagers.
Il s’agit à la fois « d’augmenter » l’expérience utilisateur, tout en la prenant en compte aussi pour améliorer les algorithmes d’analyse du langage et de génération de liens proposés.
Les algorithmes de génération de liens
Tout extrait textuel peut être sélectionné pour générer automatiquement des propositions de liens vers d'autres articles. Plusieurs algorithmes ont été développés à partir de d'approches distinctes.
1. Liens par génération de questions similaires
La sélection d’un extrait de texte permet la génération automatisée de questions. L’algorithme relie ensuite cet extrait avec ceux qui posent les mêmes questions et/ou ceux qui y répondent.
2. Liens par implications logiques (continuité de propos)
Suite à son apprentissage, l’algorithme tente de déterminer des liens de continuité entre deux documents.
Découvrir les corpus
Le programme Archival fusionne différentes sources documentaires liées à différentes bases de données documentaires multimodales, qu'elles soient constituées spécifiquement en rapport avec la thématique retenue de l'autogestion, ou qu'elles soient appelées au fil de la consultation (en fonction des requêtes) à partir de plateformes de données documentaires publiques ouvertes. Le corpus multimodal est constitué ainsi du fonds archivistique et documentaire Autogestion de la Bibliothèque FMSH ainsi que de vidéos issues de la vidéothèque numérique Canal-U (FMSH) et d'archives de l'INA. Il est également enrichi des données ouvertes issues des fonds documentaires en ligne de la BNF ainsi que de données provenant de Wikidata.
Les fonds Archival
La revue Autogestion
Le fonds sur l'autogestion de la FMSH est un fonds mixte (archives et documentation), plurilingue et pluridisciplinaire, qui existe depuis 1960. Il a reçu, fin 2017, le label CollEX (collection d'EXcellence) qui identifie pour une période de 5 ans reconductible, les collections d'intérêt national pour la recherche et, fin 2018, le comité de sélection de Persée a donné une suite favorable à la demande de partenariat de la bibliothèque de la FMSH pour la numérisation de la revue sur l'autogestion. Le programme Archival s'appuie sur la collection de la revue Autogestion qui comprend 46 numéros entre 1966 et 1986.
Les fonds audiovisuels
1. Canal U
La plateforme audiovisuelle Canal U de l'enseignement supérieur et de la recherche pilotée par le pôle Diffusion de la FMSH est au service de la science ouverte. Elle propose en libre accès un large fond audiovisuel scientifique multidisciplinaire avec plus de 300 chaînes et 40 000 ressources (entretiens, conférences, colloques, cours, podcasts...).
2. INA
L’INA archive au titre du dépôt légal de la radio télévision, 184 chaînes reflétant la diversité du paysage audiovisuel français. La mise à disposition à des fins de recherche de ces médias permet de mener des études disciplinaires et transdisciplinaires variées. Ces collections couvrent une grande partie de la mémoire du XXe siècle, construite au jour le jour par la télévision et la radio.
« L’autogestion a sans cesse rejailli selon des modalités différentes avec pour objectif la prise en main de leurs destinées par les intéressés eux-mêmes, que ce soit à l’usine ou dans la cité, comme forme de démocratie directe ».
− Claudie Weil
Données publiques ouvertes
Fonds documentaires de la BnF
La plateforme data.bnf.fr a pour but de rendre les données de la Bibliothèque nationale de France plus utiles sur le Web. Ces données sont d’ordres divers ; elles permettent notamment de décrire et identifier les documents conservés à la BnF (auteurs, œuvres, thèmes, lieux, dates, ressources de la Bibliothèque nationale de France et extérieures). Le programme Archival intègre dynamiquement ainsi via l'API de la BNF notamment des données bibliographiques concernant les personnages cités. Cet appel de données externes invite ainsi à prolonger le consultation vers d’autres sources d’informations qui pourraient être utiles.
https://data.bnf.fr
https://data.bnf.fr
Données de Wikidata
Wikidata est une base de connaissances libre qui sert de dépôt central de données structurées issues de Wikipédia, Wikivoyage, Wikisource et d’autres. Le programme Archival intègre ainsi dynamiquement différentes données (et images) concernant le profil des personnages cités.