Learning to Retrieve Relevant Passages and Questions in Open Domain and Community Question Answering

Nouha Othman

Résumé

Question Answering (QA) aims to directly return succinct and accurate answers to natural language questions. Passage Retrieval (PR) is deemed to be the kernel of a typical QA system where the goal is to reduce the search space from a huge set of documents to a few number of relevant passages, from which the required answer can be found. Although there has been an abundance of work on this task, it still requires non-trivial endeavor. Recently, community Question Answering (cQA) services have evolved into a popular way of online information seeking, where users can interact and exchange knowledge in the form of questions and answers. The Question Retrieval (QR) problem in cQA is to certain extent analogue to the PR task in traditional QA. While passage retrieval matches the user question with the document passages to search for correct excerpts in response to the user, question retrieval matches the user’s question with the archived questions to find out those that are semantically similar to the queried one. By the time, with the sharp increase of community archives and the accumulation of duplicated questions, the QR problem has become increasingly alarming and it remains more challenging than PR due to the shortness of the community questions as well as the lexical gap problem. In this thesis, we tackle both tasks: PR in open domain QA and QR in cQA. We propose different approaches to improve these critical problems in different languages. For PR, we were mainly based on SVM and n-grams while for QR, we were opted for neural networks mainly word embeddings and Long Short-Term Memory (LSTM). We run our experiments on large scale data sets from CLEF and Yahoo! Answers in different languages to show the efficiency and generality of our proposed approaches. Interestingly, the obtained results transcend that of other previously proposed ones.

Les systèmes de questions-réponses (SQR) visent à retourner automatiquement des réponses concises et précises à des questions posées en langage naturel humain. La recherche des passages (RP) est considérée comme le noyau d'un SQR typique, dont l'objectif est de réduire l'espace de recherche d'un vaste ensemble de documents à un petit nombre de passages pertinents, à partir desquels la réponse requise peut être trouvée. Bien que de nombreux travaux aient été effectués sur cette tâche, des efforts non négligeables restent nécessaires. Récemment, les services communautaires de questions-réponses (cQR) ont évolué pour devenir un moyen populaire de recherche d'informations en ligne, où les utilisateurs peuvent interagir et échanger des connaissances sous forme de questions et de réponses. Le problème de recherche des questions (RQ) dans cQR est dans une certaine mesure, analogue à la tâche d'extraction de passages dans les systèmes de questions-réponses traditionnels. Tandis que la recherche des passages apparie la question de l'utilisateur avec les passages de documents pour rechercher les extraits corrects en réponse à l'utilisateur, la recherche des questions apparie la question de l'utilisateur aux questions archivées pour trouver celles qui sont sémantiquement similaires à la requête qui a été interrogée. Avec le temps, avec la forte augmentation des archives de la communauté et l'accumulation de questions dupliquées, le problème de RQ est devenu de plus en plus alarmant et il reste plus difficile que RP en raison de la brièveté des questions de la communauté ainsi que le problème du trou lexical. Dans cette thèse, nous abordons les deux tâches: RP dans QR dans le domaine ouvert et RQ dans cQR. Nous proposons différentes approches pour améliorer ces problèmes critiques dans différentes langues. Pour le problème de RP, nous sommes principalement basés sur les SVM et les n-grammes, tandis que pour RQ, nous avons opté pour les réseaux de neurones, principalement les ‘word embeddings’ et la mémoire à court terme (LSTM). Nous menons nos expériences sur des ensembles de données à grande échelle de CLEF et Yahoo! Réponses dans différentes langues pour montrer l'efficacité et la généralité des approches proposées. Fait intéressant, les résultats obtenus transcendent ceux d’autres proposées précédemment.

Learning to Retrieve Relevant Passages and Questions in Open Domain and Community Question Answering

Apprendre à récupérer des passages et des questions pertinents dans les systèmes de questions-réponses en domaine ouvert et dans les forums communautaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager