GT1 – Apprentissage et modèles pour le TAL

Animateurs

Alexandre Allauzen (LAMSADE MILES)
Nicholas Asher (IRIT MELODI)
Frédéric Béchet (LIS TALEP)

La linguistique a constitué tout naturellement la théorie scientifique qui a structuré toutes les recherches en TAL depuis 50 ans. Même si les modèles issus de la linguistique formelle ont perdu de leur importance au fur et à mesure de l’avancée des méthodes empiriques basées sur l’apprentissage, les niveaux de représentation du langage (phonétique, morphologie, syntaxe, sémantique) ont continué à être largement utilisés lors de la mise au point de systèmes de TAL.

Les travaux récents sur les modèles de bout en bout de type séquence-à-séquence remettent en jeu cette dépendance à la représentation linguistique traditionnelle de la langue. Ainsi, pour les analyses linguistiques, étudier la nature des structures apprises par les réseaux profonds est une voie de recherche qui peut permettre de mieux comprendre leur fonctionnement et leurs limites, notamment à travers le type de structure syntaxique inférée par ces modèles.

De plus, alors que le TAL statistique a tendance à s’éloigner des modèles linguistiques en privilégiant les approches bout en bout applicatives, un nouveau mouvement est en train de voir le jour, inspiré par l’étude des mécanismes d’acquisition et de traitement du langage chez l’humain dans le cadre des sciences cognitives. Dans cette nouvelle vision, les modèles développés en apprentissage automatique peuvent être confrontés à des données provenant de la psycholinguistique, de la psychologie ou de la neurologie. Ces comparaisons pourront aider à développer des modèles de TAL plus en conformité avec des données humaines et pourront symétriquement fournir des modèles de prédiction de comportements humains (dans le cadre de tâches linguistiques), avec l’espoir de rendre moins opaque la fameuse boîte noire des systèmes purement statistiques.

Le but du groupe de travail Apprentissage et modèles pour le TAL est d’étudier les relations entre modèles linguistiques et cognitifs de la langue et modèles issus de méthodes d’apprentissage automatique.
Dans ce thème général, trois thématiques seront abordées :

  1. L’apprentissage à la rencontre des modèles linguistiques et cognitifs.
    Les modèles conceptuels issus de la linguistique ou des sciences cognitives permettent-ils d’éclaircir la “boite noire” que sont devenus les modèles à base d’apprentissage, notamment ceux à base de réseaux de neurones profonds qui sont la norme de nos jours pour le TAL ? Et réciproquement que permet d’apporter l’apprentissage de modèles sur corpus aux modèles formels en confirmant ou infirmant certaines hypothèses ?
  2. Compréhension et sémantique. La compréhension de texte est encore très loin d’être résolue. Les modèles d’inférence du sens à partir de l’énoncé peinent encore à modéliser finement leur sémantique. De nouveaux modèles doivent être explorés pour produire des systèmes comprenants , en particulier en interaction avec les sciences cognitives.
  3. Dialogue et interaction. Ce thème porte sur la modélisation du langage en situation d’interaction, lors d’un dialogue oral ou bien écrit. Quelles sont les particularités du traitement de ces échanges langagiers ? L’apprentissage par renforcement va-t-il permettre de développer des modèles apprenant au fur et à mesure d’interactions avec des utilisateurs ?

Actions

  • Journée du jeudi 14 mars 2019 “Apprentissage, modèles linguistiques et cognitifs”
  • Axe de réflexion 2018 Apprentissage et TAL Rapport
  • Axe de réflexion 2018 Sémantique et compréhension Rapport
  • Axe de réflexion 2018 Modèles computationnels pour le TAL Rapport

Liste de diffusion

Inscrivez-vous à la liste de diffusion :
gt1-gdrtal-request@liste.lis-lab.fr avec “subscribe”