Masquer les fiches
Voir les fiches
|
|
Présentation de l'approche :
génération de liens entre documents par génération de questions

Les méthodes classiques de recherche d'information se basent soit sur des mots clés, soit sur des courtes requêtes qui vont servir à sélectionner des documents sur le Web ou dans une base documentaire en fonction de la présence de ces mots clés ou de la similarité entre la requête et un document. Plus récemment les moteurs de recherche donnent la possibilité de poser directement des questions en retournant un document contenant une réponse possible à la question posée. Ce mode d'interrogation est intéressant pour obtenir des réponses factuelles du type « Qui », « Où », « Quand », cependant il ne prend pas en compte la notion de questions « ouvertes » pour lesquelles il n'y a pas de réponses uniques et courtes, mais qui au contraire nécessite de consulter plusieurs documents tout en ouvrant sur d'autres questions au fur et à mesure de la consultation.

Ce mode d'exploration consistant lors de l'analyse d'un texte à rechercher les questions principales qu'il pose, et à le relier à d'autres documents abordant des questions similaires ou complémentaire, est une démarche habituelle lors de la rédaction d'un commentaire de texte où les problématiques abordées sont souvent présentées sous forme interrogative (« En quoi .. », « Comment .. », etc.).

Le prototype d'exploration de collection de documents par génération de question développé dans le cadre du projet Archival s'inspire de cette méthode d'analyse et vise à reproduire automatiquement le comportement d'un lecteur devant collecter des passages de documents portant sur une problématique donnée représentée par une ou plusieurs questions décrivant la problématique sous forme interrogative. En cherchant des documents abordant des questions similaires ou complémentaires, le lecteur peut se constituer une base bibliographique autour de la problématique choisie.

Par exemple, si la problématique choisie est : « Etude des liens entre marxisme et autogestion », on peut décrire cette problématique par des questions telles que : « L'autogestion est-elle une variante du marxisme ? », « Quelles formes de socialisme sont compatibles avec l'autogestion ? », « Quelles relations entre révolution et autogestion ? », « Y a-t-il une théorie de l'autogestion ? », etc.

En permettant d'explorer des documents qui abordent ces questions ou qui en contiennent d'autres « proches » par rapport à une mesure de similarité, le prototype Archival vise à proposer aux lecteurs une nouvelle expérience de navigation complémentaire à la recherche par mots clés ou requêtes. Cette méthode vise aussi à rendre plus explicite le lien proposé par la machine entre deux passages de documents en ne se basant pas uniquement sur leur similarité lexicale mais en abordant le niveau plus abstrait du « questionnement » que suscite chaque passage et en expliquant ce lien par la proximité des questions générées.
Les objectifs ambitieux du prototype Archival sont à confronter à la réalité des performances des modèles actuels d'analyse automatique de texte qui se contentent le plus souvent d'une analyse surfacique peu profonde. Le but de l'expérimentation à laquelle vous participez est d'évaluer la pertinence de cette méthode d'exploration au regard des performances limitées des méthodes automatiques.

D'un point de vue méthodologique, la méthode d'exploration par génération de question du prototype Archival est basé sur l'algorithme suivant :

Certaines mises en garde s'imposent avant d'utiliser ce prototype :

  1. Tout d'abord il s'agit bien d'un prototype recherche ! Nous sommes tout à fait conscients des limites des modèles actuels, et ne prétendons pas vous proposer une méthode aboutie et validée. Justement vous êtes en charge de vérifier si malgré les limites actuelles, ce mode de navigation et le type de questions et de liens générés sont utilisables dans un contexte concret d'exploration de corpus, en dehors des évaluations que nous pouvons faire dans nos laboratoires.
  2. Enfin n'attendez pas que chaque proposition de la machine soit pertinente ! Vous devez vous mettre dans la situation où 90% des propositions de la machine sont sans doute soit peu pertinentes, soit saugrenues, comme on peut l'avoir dans les retours d'un moteur de recherche à une requête sur le Web, et que votre rôle est de trouver les « pépites » parmi les propositions que va faire la machine et qui vont vous permettre de découvrir des articles et des liens qui auraient pu être ignorés dans la masse de documents disponibles.
Présentation de l'approche :
Génération de liens par similarité sémantique
et explication par le mécanisme d'attention.

Les techniques traditionnelles de mise en relation de textes, souvent issues du domaine de la recherche d'information, se fondent sur les termes communs entre les deux textes à relier pour établir un score de similarité. De manière évidente, de telles approches rencontrent rapidement des limites, en particulier en raison de l'absence d'analyse sémantique qu'implique la recherche de termes en communs. Il en résulte des relations entre documents soit traitant strictement de la même chose (beaucoup de termes en commun), soit n'ayant qu'un rapport lointain, voire aucun au-delà de quelques termes communs.

Nous adoptons ici une approche en deux étapes : une première étape pour mettre en relation des portions de texte (phrase, paragraphe, sélection, etc.) ; une seconde étape pour apporter une explication au lien trouvé en mettant en avant les portions les plus en lien entre les deux textes.

L'étape de mise en relation s'appuie sur des techniques d'apprentissage pour apprendre à représenter les documents dans un espace (vectoriel) : lors de la phase d'apprentissage, le modèle apprend à rapprocher (en terme de distance) les représentations respectives de textes similaires dans l'espace tout en cherchant à écarter celles de textes différents. Un tel modèle, connu sous le nom de Sentence BERT, apprend ainsi implictement une représentation sémantique des textes pour pouvoir les mettre en relation. Le modèle est entrainé en amont sur un grand ensemble de phrases etiquetées comme proches ou non en terme de sens, sans connaissance particulière du domaine de l'autogestion. Il est ensuite appliqué sur les portions de texte sélectionnées afin de proposer des liens vers d'autres textes, que ce soit au sein d'une même source ou d'une différente.

L'étape d'explication consiste à mettre en évidence des termes ou portions de phrases dans chacun des textes, dont la lecture rapide doit permettre d'éclairer la relation établie entre les deux textes (ou l'absence de relation en cas d'erreur), facilitant ainsi le travail d'exploration en dotant l'utilisateur d'un moyen de juger rapidement de l'intérêt ou non d'un lien pour son travail. De manière concrète, l'explication se traduit par le fait de surligner les passages pertinents dans chacun des textes. Cette étape d'explication se fonde sur un modèle de traitement du langage entrainé pour prédire si une phrase s'inscrit dans la continuité logique de l'autre ou pas, permettant ainsi de prédire les phrases du texte cible (la cible du lien) qui s'inscrivent dans la continuité logique d'une ou plusieurs phrases du texte source (le point de départ). Le modèle est entrainé sur les données du fonds autogestion en s'appuyant sur la logique éditoriale des auteurs : les phrases consécutives au sein d'un même article constituent des exemples positifs, tandis que des paires de phrases prises aléatoirement dans deux articles distincts constituent des exemples négatifs. Le modèle est ensuite utilisé pour identifier les phrases du texte cible issus de la première étape qui sont considérées comme la continuité logique d'une ou plusieurs phrases du texte source. Nous exploitons enfin le fonctionnement interne du modèle pour identifier les termes que le modèle a considéré comme les plus importants pour décider que deux phrases s'enchainent logiquement. Ce sont au final les termes de tels phrases que nous mettons en avant comme explication de la relation entre les deux textes.