Actions – A1 Ressources

Animateurs

Gilles Adda (LISN M3). gilles.adda_at_limsi.fr
Philippe Muller (IRIT MELODI) philippe.muller_at_irit.fr

Les ressources (données et logicielles) sont au cœur de toutes les thématiques et des groupes de travail du GDR TAL. La communauté doit être au fait des questions de standardisation des ressources et outils, voire des projets fédérateurs de création de ressources/outils. Il est important aussi de clarifier les besoins en infrastructures, que ce soit pour l’accès pérenne aux ressources disponibles, ou pour la mise à disposition d’outils, et de positionner la communauté française vis à vis des efforts existants à l’international (comme CLARIN). L’objectif de l’action Ressources vise à faciliter la diffusion de ressources sur le français et les langues de France sur les infrastructures existantes, à améliorer l’interopérabilité des outils sur le français, ou bien à les penser dans les cadres existants et à augmenter la participation aux campagnes d’évaluation telles que Semeval avec la création de données spécifiques pour le français.
Les actions envisagées sont :

  • Coordination pour la constitution de données pour les campagnes d’évaluation internationales (par exemple Semeval)
  • Réunions thématiques en lien avec les GT, sur les problématiques liées aux ressources
  • Insertion de partenaires du GDR dans les projets fédérateurs autour des ressources
  • Action de médiation vers le public sur les problématiques liées aux données, notamment sur les enjeux éthiques~: confidentialité, non-discrimination, transparence…

Adhésion du GDR TAL à LDC (Linguistic Data Consortium) pour l’année 2022  réservée aux équipes CNRS

Le Linguistic Data Consortium est un consortium d’universités, d’entreprises et de laboratoires de recherche. Il crée, recueille et distribue des bases de données vocales et textuelles, des lexiques et d’autres ressources à des fins de recherche et de développement linguistiques.

L’adhésion permet à tous les membres de :

– obtenir gratuitement l’ensemble des corpus de 2022 (ainsi que de 2012)
– obtenir des réductions (50%) sur certains corpus payants
– télécharger les corpus déjà obtenus (payant ou non) par d’autres membres (il y en a 43 actuellement)

Bien que la tendance soit d’encourager les distributions ouvertes et gratuites de corpus, il apparaît qu’un certain nombre de corpus ne sont pas accessibles en dehors de LDC et que certains laboratoires adhèrent individuellement à LDC. Nous espérons que l’adhésion du GDR permettra de mutualiser l’accès à ces ressources et dispensera les laboratoires de leur adhésion individuelle.

Pour accéder au corpus, vous devrez créer un compte du LDC (https://catalog.ldc.upenn.edu/signup) et demander votre rattachement à “CNRS – Centre National de la Recherche Scientifique”. Une fois rattaché vous pourrez : soit accéder aux ressources déjà acquises ; soit en acquérir de nouvelles pour vos recherches et le compte du GDR (a vos frais bien évidemment) auxquelles tous les membres auront accès. (Nota : il faut indiquer un autre e-mail si on a déjà un compte LDC)

Liste de diffusion

Les personnes intéressées pour participer aux travaux du GT3 ou suivre ses activités sont invités à s’abonner à la liste de diffusion :
gdrtal-ressources@services.cnrs.fr
Pour ce faire, envoyez, depuis l’adresse mèl que vous souhaitez voir intégrer à la liste de diffusion, un message à sympa@services.cnrs.fr contenant uniquement le sujet :
subscribe gdrtal-ressources@services.cnrs.fr Prénom Nom (corps du message vide).
Pour diffuser un message sur la liste, adressez-le à :
gdrtal-ressources@services.cnrs.fr
Si vous souhaitez vous désabonner ultérieurement de la liste, il vous suffira d’adresser un message composé du seul sujet :
unsubscribe  gdrtal-ressources@services.cnrs.fr
à sympa@services.cnrs.fr

Rapport

  • Axe de réflexion 2018 Ressources Rapport