home page

Valorisation d’archives multimédia.
Vers une compréhension automatique multimodale
du langage pour de nouvelles interfaces intelligentes
de médiation et de transmission des savoirs.

Le projet Archival

Valorisation
d'archives

Un projet soutenu par l’Agence Nationale de la Recherche
Lauréat de l’Appel à projets générique 2019 (CE38)

ARCHIVAL offrira de nouvelles formes d’accès aux collections de vidéos et aux fonds d’archives de la FMSH, grâce aux avancées dans les domaines des interfaces multimodales, de la compréhension automatique des contenus et de l’apprentissage de représentation. En dépassant le cadre strict de l’extraction d’information (mots clés, entités nommées, triplets RDF) pour tendre vers l’analyse sémantique profonde, ARCHIVAL s’oriente vers une compréhension multimodale multi-échelle intégrant le contexte de chaque document (thème, auteur, oeuvres complète).

ARCHIVAL générera dynamiquement des combinaisons, consultables via des interfaces attractives, où les vidéos seront placées en regard d’autres publications, enrichies par des photos d’archives, des citations, des médiacartes, étayant le discours et offrant une épaisseur aux documents. L’ambition générale est de créer une chaîne de valeur sur les corpus ouverts facilitant la médiation et la transmission des savoirs.

CE38 (8.6) Révolution numérique : rapports au savoir et à la culture
Instrument de financement : Projet de recherche collaborative - Entreprise (PRCE)
Catégorie R&D : Recherche fondamentale
Durée : 42 mois

Un projet labellisé par cap-digital

Questionnements de recherche

Quel rôle peuvent jouer les méthodes de Compréhension par les machines dans la réinterprétation de fonds d’archives thématiques ?

Selon quelles modalités des interfaces génériques de médiation des contenus peuvent-elles exploiter des résultats générés par les méthodes actuelles d’Intelligence Artificielle (IA) ?

Objectifs scientifiques

1.
Réaliser cette Compréhension de Documents de manière multimodale (paroles, textes, images fixes et vidéos). Permettre, grâce aux méthodes d’IA de type « End-to-end », une optimisation globale de la chaîne de traitement et placer l’utilisateur final au cœur du processus d’apprentissage machine. Et ainsi renforcer la collaboration entre chercheurs en SHS, STIC et Informatique.
2.
Appréhender un document au prisme des relations qu’il entretient avec d’autres documents; des questions « naturelles » portant sur son contenu; des synthèses (résumés, réécritures, cartographies) qui peuvent être générées dynamiquement suite à son analyse.
3.
Structurer dynamiquement une interface de résultats de requête pour redécouvrir le plaisir de feuilleter ou d’approfondir les archives.
Bibliothèque
Grand équipement documentaire
Plateforme documentaire en ligne

Un corpus multimodal

Le corpus multimodal est constitué du fonds archivistique et documentaire « Autogestion » de la Bibliothèque FMSH ainsi que des audios-vidéos issus de la vidéothèque numérique Canal-U (FMSH).
Il sera progressivement enrichi des fonds documentaires de Gallica, des films et des émissions radio de l’INA et du département audiovisuel de la BnF.

Fonds Autogestion FMSH
Existe depuis 1960. Fonds mixte (archives et documentation), plurilingue et pluridisciplinaire.
25.000 pièces
Livres, revues, brochures, mémoires, rapports, tracts, comptes rendus de réunions, correspondances...
Labellisé CollEx
Le Fonds Autogestion a récemment été labellisé CollEx (Collection d’Excellence) dans le cadre de l’AMI CollEx-Persée.
Vidéothèque Canal-U
La webtv de l’enseignement supérieur et de la recherche Canal-U du pôle Diffusion de la FMSH : 16 500 conférences, 4 500 documentaires, 5 000 cours filmés et MOOCs.
+ Fonds INA
Dans un second temps, nous étudierons l’opportunité d’étendre le périmètre à l’API « Jalons » (INA).
+ Fonds BnF
Un jeu de données, issu de Gallica et dataBnF, sera également mobilisé.

La thématique de l’autogestion

« L’autogestion a sans cesse rejailli selon des modalités différentes avec pour objectif la prise en main de leurs destinées par les intéressés eux-mêmes, que ce soit à l’usine ou dans la cité, comme forme de démocratie directe ».
Claudie Weil

Le thème de l’autogestion s’inscrit dans le large spectre des sciences sociales. Il concerne l’espace social quotidien, la vie économique aussi bien que la vie politique, l’éducation, l’écologie, les pratiques culturelles, les projets architecturaux,… Il touche à la structure des populations, aux relations de ces dernières avec les ressources, à l’interaction entre l’activité humaine et les conditions naturelles, à l’armature politique, juridique et administrative de la société, aux relations d’autorité entre les individus et entre les groupes, aux processus d’acculturation. C’est un thème particulièrement transversal et pluridisciplinaire.

L’autogestion accompagne aujourd’hui de manière sous-jacente les notions de démocratie radicale, de confédéralisme, d’économie sociale et solidaire, de développement durable. Source d’innovation sociale, l’autogestion se conjugue au présent dans le monde entier et interroge les modèles de développement économiques et sociétaux.

Phases du projet

Janvier 2020
début projet
WP1
Préparation du corpus Plan de Gestion des Données
WP2
Production d’un espace de représentation sémantique multimodal
WP3
Exploitation de l’espace de représentation sémantique multimodal
WP4
Création des interfaces innovantes + Expérience utilisateur
WP5
Évaluation de l’appropriation des outils par les usagers

Les partenaires du projet

Coordinateur du projet
Partenaires

La force du projet est de rassembler à la fois des partenaires académiques, reconnus dans leurs disciplines respectives, et un industriel impliqué sur le plan des recherches théoriques en traitement automatique du langage et sur le plan de la valorisation des contenus de la connaissance.