La recherche au Lacito

Opérations de recherche en cours

Séminaire Pratique des Doctorants LACITO-LLACAN

Responsables : Llacan à définir et Axelle Houbani

Terrains, analyse et comparaison des langues

Le Séminaire Pratique des Doctorants LACITO-LLACAN a pour vocation de traiter des problématiques techniques (outils informatiques, captation audiovisuelle, archivage de données, etc.) et pratiques (préparer son terrain, travailler avec les communautés, collecter des données à distance, etc.) rencontrées en linguistique de terrain.

L’esprit du séminaire est horizontal, privilégiant l’échange entre tous les participants sur le format de la table-ronde après un court exposé donné par un ou plusieurs participants partageant leur expérience ou leurs compétences.

Le séminaire a lieu un lundi par mois de 14h à 15h30 (sauf exceptions) et est ouvert à tous, s’adressant en particulier aux doctorants, mais pas seulement. Pour y participer et être ajouté à la liste de diffusion, veuillez écrire à l’adresse : Axelle Houbani

Le séminaire a pour le moment lieu en distanciel sur Zoom. À l’avenir, il sera probablement rendu hybride. Par défaut, les exposés sont donnés en anglais, mais ont parfois lieu des séances en français. Lors de la discussion, les participants sont libres de s’exprimer en anglais ou en français.

Prochaines séances :

La prochaine séance du séminaire aura lieu lundi 17 juin à 10h30, dans la salle de réunion du LLACAN (Bât C, 1er étage). Un lien sera disponible pour suivre cette séance en ligne.

Pour cette séance de reprise, Shu Takeda (LaCiTo), Miracle Oppong Peprah (Llacan) et Mouktar Traoré (Llacan) présenteront chacun brièvement les difficultés administratives qu’ils ont rencontrées pour accéder à leur terrain respectif, et les solutions qu’ils ont trouvées et mises en place pour les dépasser. Leur présentation sera suivie d’une discussion d’une heure modérée.

Séances passées :

Lundi 12 décembre 2022, de 14h à 16h. Exposé de Said Guerrab : « Outils de cartographie ».

Lundi 14 novembre 2022, de 14h à 15h30.

Lundi 10 octobre 2022, de 14h à 15h30. Exposé de Tessa Vermeir : « Créer de sous-titres ».

Lundi 12 septembre 2022, de 14h à 15h30.

Lundi 11 juillet 2022, de 14h à 15h30. Séance participative : « Se préparer au terrain : production conjointe d’un livret à l’usage des doctorants-linguistes du système français (mais utile à tout linguiste de terrain) » – 3ème session.

13 juin 2022. Exposé de Galla Althabégoity (Université d'Orléans) : « Présentation d'une collection Cocoon »

Résumé:

La plateforme COCOON accueille de nombreux corpus oraux. Elle permet d’archiver les documents qui y sont déposés et de les rendre disponibles. Elle permet également d’accompagner un document audio de ses annotations. Lors de la rencontre, je présenterai le fonctionnement de cette plateforme et l’usage que j’en ai fait pour y déposer des données. L’archivage et la diffusion des données orales soulèvent plusieurs questions : Quelle(s) plateforme(s) utiliser ? Toutes les données orales doivent-elles être rendues disponibles ? Sinon, sur quels critères opérer une sélection ? Quel est l’intérêt de déposer des annotations ? Quel public peut être intéressé par les corpus déposés ? La rencontre sera l’occasion pour nous d’en discuter ensemble.

23 mai 2022. Exposé de Ekaterina Aplonova (Lacito) et Izabela Jordanoska (Lacito) : « L'outil recherche dans ELAN »

Résumé :

ELAN est l’un des outils les plus fréquemment utilisés pour l’annotation linguistique des enregistrements audio et vidéo. Beaucoup de linguistes connaissent le processus d’annotation de fichiers dans ELAN, mais peu sont conscients de son remarquable potentiel en tant qu’outil de recherche de ces fichiers. Dans notre tutoriel, nous allons montrer comment fonctionne la fonction de structural search multiple Elan files. Nous commencerons par des requêtes simples lorsque vous aurez besoin de trouver un mot / une glose / une traduction spécifique dans plusieurs fichiers Elan, puis, étape par étape, nous complexifierons nos requêtes en requêtes à plusieurs couches et à expressions régulières.

Le public cible de ce tutoriel sont les linguistes qui ont déjà des fichiers annotés dans Elan et qui ont l’intention d’apprendre à utiliser Elan comme outil de recherche de corpus. Cependant, si vous commencez tout juste à utiliser Elan et que vous n’avez pas beaucoup de fichiers annotés ou que vous envisagez simplement de commencer à l’utiliser, le didacticiel montrera le potentiel du logiciel.

9 mai 2022. Exposé de Songfolo Lacina Silué (Inalco ; Lacito) : « Format Factory »

Résumé :

Imaginez que vous ayez enregistré des données très importantes sur le terrain et que vous découvriez plus tard qu’elles ne peuvent pas être ouvertes par vos logiciels de travail. Imaginez que vous avez de courts fichiers audio et que vous souhaitez les fusionner en un seul long fichier audio. Imaginez que la qualité sonore de vos vidéos est meilleure que celle de vos audios et que vous devez extraire ce son de la vidéo. Imaginez que le son de la vidéo soit mauvais et que vous deviez remplacer ce son par un fichier audio de meilleure qualité. Imaginez que vous ayez des vidéos lourdes et que vous souhaitiez les compresser sans perdre la qualité d’origine. Imaginez que vous avez vu des images ou des graphiques dans un document de recherche que vous devez utiliser dans votre étude, mais vous ne pouvez pas car ils sont intégrés dans le PDF. Imaginez que vous avez beaucoup de fichiers PDF que vous devez joindre en un seul fichier. Imaginez que vous ayez un document secret auquel vous souhaitez qu’une personne restreinte puisse y accéder.

Si vous êtes dans l’une des situations ci-dessus, alors Format Factory, un convertisseur de fichiers multimédia, est ce dont vous avez besoin.

Durant cette séances, vous apprendrez à :

Convertir vos données multimédia dans différents formats en fonction de vos besoins
Fusionner plusieurs fichiers audio en un seul
Extraire un fichier audio d’une vidéo
Séparer un audio et une vidéo
Extraire quelques images d’un fichier pdf
Crypter un document
Téléchargez des vidéos en ligne

11 avril 2022. Exposé de Chika Ajede Kennedy (Inalco ; Llacan) : « Migration de Toolbox vers FLEx »

Résumé :

La communauté linguistique met régulièrement à jour nos outils de description et de documentation linguistique. Parfois, une mise à jour est si importante qu’un nouvel outil est destiné à remplacer un outil important utilisé depuis des décennies. FLEx (FieldWorks Language Explorer), par exemple, remplace progressivement Toolbox en tant qu’application de construction de dictionnaire la plus couramment utilisée. Dans ces cas, il est bon de s’habituer au nouvel outil le plus tôt possible, car les développeurs et les équipes de support réduisent la maintenance des anciens outils et consacrent plus d’énergie au développement et à la prise en charge des nouveaux.

Un défi majeur est de migrer nos données d’un environnement à l’autre. Nous voulons conserver nos données et nos analyses, et nous voulons éviter de dupliquer le travail en saisissant manuellement des entrées dans notre base de données FLEx que nous avons déjà dans Toolbox. Malheureusement, il est parfois difficile de trouver des tutoriels sur la façon de procéder.

Dans cette session, nous montrerons comment migrer une base de données lexicale de Toolbox vers FLEX. Nous illustrerons cela avec un lexique de Dijim [cfa, diji1241]. La démonstration durera environ 30 minutes. Si le temps le permet, nous pouvons aider ceux qui ont du mal à transférer leurs données lexicales vers FLEx et trouver des solutions aux questions que les participants pourraient avoir.

Vous pouvez télécharger FLEx ici : https://software.sil.org/fieldworks/ . Quelques tutoriels sont disponibles ici : https://software.sil.org/fieldworks/resources/tutorial/ .

14 mars 2022. Exposé de Christian Chanard (Llacan) « Initiation à ELAN »

Résumé :

ELAN est un logiciel développé par le Max Planck Institut de Nijmegen aux Pays-Bas. Il permet l’annotation d’enregistrements audio et/ou video.

Des lignes d’annotation indépendantes, directement liées au temps, ou bien dépendantes hiérarchiquement d’un parent permettent de créer des annotations de différents niveaux.

Un module développé par le LLACAN a été ajouté dans une version dérivée, ELAN-CorpA, qui apporte une aide à l’annotation morpho-syntaxique de phrases liées au son, grâce à l’utilisation d’un lexique qui se construit au fur et à mesure et d’un parseur basé sur les affixes.

ELAN autorise l’importation et l’exportation de fichiers annotés dans différents formats : tabulé, HTML, Toolbox, Flex, Praat…

Nous présenterons :

le modèle d’annotation morpho-syntaxique CorpA en précisant les notions de tiers indépendantes (segmentation des unités, chevauchement de l’information) et de tiers hiérarchisées (stéréotype, dépendance, niveau d’analyse),
la mise en place de l’annotation aidée par un lexique
la recherche sur les données
des exemples d’importation et exportations de données

14 février 2022. Exposé de Jakob Lesage (Humboldt-Universität zu Berlin) : « Traitement des enregistrements »

Résumé :

La documentation linguistique, l’archivage et la diffusion des enregistrements dans les communautés nécessitent des connaissances de base en traitement audio et vidéo. Dans cette session, nous discuterons des problèmes techniques liés à la réception (dans le cas d’un projet à distance), à la conversion et à la mise à disposition d’enregistrements audio et vidéo réalisés lors d’un projet de documentation linguistique. Nous présenterons des outils tels que :

HJsplit, pour diviser des fichiers volumineux afin qu’ils puissent être transférés via une connexion Internet intermittente. Mega.nz, un site Web de stockage en nuage
ffmpeg, un puissant outil de traitement vidéo et audio qui fonctionne à partir du ‘command prompt’
Handbrake, un outil de traitement vidéo plus accessible mais qui demande beaucoup à votre processeur
BES (Battle Encoder Shirasé), un outil qui empêche le processeur de votre ordinateur d’être grillé comme celui de Jakob lors de la conversion de fichiers vidéo
L’exportateur de sous-titres d’ELAN, qui vous permet d’exporter des fichiers de sous-titres pouvant être utilisés sur YouTube ou pouvant être ‘hard coded’ dans un fichier vidéo à l’aide de Handbrake

Ce sera une session d’introduction, avec de nombreuses discussions sur nos expériences et nos besoins en matière de workflow. En fonction de l’intérêt des participants, nous pourrions organiser des tutoriels plus spécifiques sur la façon d’utiliser (un sous-ensemble de) ces outils.

6 décembre 2021. Séance participative : « Se préparer au terrain : production conjointe d'un livret à l'usage des doctorants-linguistes du système français (mais utile à tout linguiste de terrain) » – Deuxième session

Résumé :
Suite de la séance du 22 novembre.

22 novembre 2021. Séance participative : « Se préparer au terrain : production conjointe d'un livret à l'usage des doctorants-linguistes du système français (mais utile à tout linguiste de terrain) » – Première session

Résumé :

Pour cette séance (en anglais), nous vous proposons de participer à la création conjointe d’une brochure sur la préparation au terrain destinée principalement aux linguistes effectuant un doctorat en France (en particulier dans une UMR, et en particulier au LLACAN,

au LACITO ou au SeDyL), mais qui profitera également à tout linguiste de terrain débutant ou confirmé. Il s’agira de mettre en commun les idées de tous les participants au séminaire dans un document GoogleDoc qui se divisera en trois rubriques principales :

La préparation administratives (CNRS et université)
La préparation scientifique
La préparation pratique

On y ajoutera également d’autres aspects pratiques très importants de la préparation du retour de terrain (par ex. la justification des frais auprès du CNRS), ainsi qu’un planning indicatif. Cette activité sera évidemment aussi l’occasion de discuter à volonté de tous les aspects de la préparation et du déroulement du terrain. Ainsi, tous les participants seront encouragés à soulever les questions qu’ils souhaitent en rapport avec la thématique. Il n’y aura pas d’objectif de finir la brochure à tout prix au terme de cette séance. L’activité pourra être poursuivie au cours d’une autre séance du séminaire si les participants le souhaitent.

Les organisateurs du séminaire assureront l’animation de l’activité ainsi que l’édition du document en vue de son impression et de sa distribution.

11 octobre 2021. Exposé de Jakob Lesage (Humboldt-Universität zu Berlin) : « Phonology assistant »

Pas de résumé

13 septembre 2021. Exposé de Neige Rochant (Université Sorbonne Nouvelle ; Lacito ; Llacan) : « Intégrer l'audio dans FLEx »

Résumé :
La séance sera consacrée à un des thèmes qui a reçu le plus de votes des participants : Démonstration d’une méthode pour intégrer vos enregistrements à vos textes dans FLEx de manière alignée. Cette séance ne nécessite pas de bien connaître FLEx, mais elle vous sera particulièrement utile si vous utilisez (ou avez l’intention d’utiliser) FLEx pour gloser vos textes et que vous souhaitez pouvoir écouter chaque phrase de votre texte au fur et à mesure de votre travail de manière pratique et rapide. FLEx n’étant pas ELAN, cette fonctionnalité n’existe pas telle quelle dans FLEx, mais il existe des moyens pour rendre cela possible.

2 juillet 2021. Exposé de Cécile Macaire (Université Grenoble Alpes ; Lig / Getalp), Séverine Guillaume (Lacito) et Alexis Michaud (Lacito) : « Outils informatiques pour la documentation des langues : explorations en Reconnaissance Automatique de la Parole sur données de terrain »

Résumé :

Les laboratoires LLACAN et LACITO sont engagés dans des projets exploratoires qui visent à exploiter le potentiel des méthodes informatiques afin de faciliter les tâches de documentation des langues en danger. Les outils fondés sur l’apprentissage machine peuvent aider efficacement aux tâches d’annotation linguistique : transcription, glosage, traduction. Mais le traitement automatique reste peu utilisé, notamment parce que la technologie est encore nouvelle (et évolue rapidement), et qu’on manque d’interfaces simples et conviviales. Nos laboratoires ambitionnent une co-construction de modèles et d’outils par des linguistes de terrain et des informaticiens.

Dans ce cadre, des explorations en Reconnaissance Automatique de la Parole sur données de terrain sont en cours. Après une présentation globale du projet “Elpis”, des expériences en cours seront présentées (qui recourent aux Transformers de Huggingface, et à wav2vec Unsupervised de Facebook AI). L’objectif est de permettre à un public de linguistes de mieux comprendre le fonctionnement des outils et les enjeux des collaborations interdisciplinaires avec des informaticiens.

Quelques références :

Ouvrir aux linguistes « de terrain » un accès à la transcription automatique https://hal.archives-ouvertes.fr/hal-03047148
User-friendly automatic transcription of low-resource languages: Plugging ESPnet into Elpis
https://halshs.archives-ouvertes.fr/halshs-03030529
Integrating automatic transcription into the language documentation workflow: Experiments with Na data and the Persephone toolkit
https://halshs.archives-ouvertes.fr/halshs-01841979

14 juin 2021. Exposé de Maxime Fily (Université Grenoble-Alpes ; Sorbonne Nouvelle ; Lacito) : « Conversion de TextGrid à XML »

Résumé :

Présentation d’outil essentiel pour le dépôt de textes ou de lexiques dans la collection Pangloss (https://pangloss.cnrs.fr/). Il s’agit d’un script Python servant à convertir un fichier format textgrid (productible dans Praat ou ELAN) dans un type de fichier format XML géré par Pangloss. Cela simplifie énormément le dépôt dans Pangloss. L’utilisation de ce script est très simple, mais nécessite néanmoins quelques configurations préalables et une compréhension générale du fonctionnement de Python.

Maxime présentera cet outil par une démonstration sur un cobaye ayant déjà Python installé (Neige). Tous les participants sont les bienvenus pour essayer l’outil en même temps, mais nous n’aurons pas le temps de faire du soutien technique. Il s’agira donc essentiellement d’une présentation, pas d’une prise en main. Si vous n’avez jamais fait de Python, cette présentation vous permettra de juger s’il peut vous être utile de maîtriser cet outil et donc d’apprendre les bases de Python (ce qui est simple mais ne fera donc pas l’objet de cette séance).

Si, à l’issue de la séance, un nombre suffisant de participants se montre intéressé par ce script ou par l’apprentissage de Python pour l’utilisation d’autres scripts, nous envisagerons d’organiser une séance (peut-être en marge des horaires habituels du séminaire) consacrée à la prise en main de Python pour l’utilisation de scripts tout faits. Cela pourra également être pertinent si vous souhaitez utiliser le script permettant d’identifier les paires minimales dans un lexique, qui fera l’objet d’une séance ultérieure.

10 mai 2021. Exposé de Evgeniya (Jenia) Gutova (Lacito) : « Collecter des données de terrain à distance »

Pas de résumé

12 avril 2021. Exposé de Jakob Lesage (Humboldt-Universität zu Berlin) : « Passage d'Elan à Flex et de Flex à Elan »

Pas de résumé