Datathon de la parole, 18-19 novembre 2024 :
dépôt, archivage et diffusion des corpus oraux (linguistique, socio-linguistique, histoire orale)
Le Groupement de recherche « Linguistique Informatique, Formelle et de Terrain » (GDR LIFT), la plate-forme Collection de Corpus Oraux Numériques (Cocoon) et la Bibliothèque nationale de France organisent à Paris dans les espaces du DataLab de la Bibliothèque nationale de France un troisième atelier « Datathon de la parole » de quatre demi-journées, du lundi 18 novembre au mardi 19 novembre 2023. Il fait suite aux deux datathons de la parole qui ce sont déroulés en novembre 2021 à Orléans et novembre 2023 à Paris (BnF).
L’événement s’inscrit également dans le cadre des activités soutenues par le consortium « Corpus, Langues et Interactions » (CORLI) de l’Infrastructure de Recherche Huma-Num et par l’Institut des Langues Rares (ILARA) de l’École Pratique des Hautes Études.
L’appel à participation est ouvert à tous les chercheurs, chercheuses et doctorant·e·s qui ont un jeu de données orales et souhaitent en ouvrir l’accès (à diverses fins, y compris sa ré-utilisation à des fins de recherche nouvelles).
Objectifs
L’atelier se propose de fournir un cadre dans lequel travailler à la description des ressources et de leur contexte de production, en vue d’une publication des données. Cet atelier sera encadré de présentations générales par les animateurs et le BnF DataLab, visant à situer les enjeux et stratégies, dans un contexte de Science ouverte : dépôt, archivage et diffusion ; description des données et référencement ; articulation entre données, outils et publications ; fouille de données.
Les thématiques abordées couvrent les finalités aussi bien que les dimensions spécifiques du plan de gestion de données que sont le plan de classement, le plan de nommage, le formatage et autres étapes qui permettent d’aboutir au dépôt en archive dans les règles de l’art, dépôt qui ouvre les données à de nouvelles utilisations et recherches, dans une logique cumulative.
Inscription
Informations souhaitées par le comité d’organisation du datathon de la parole
Nature des données orales (parlées), langues concernées (on donnera une priorité aux langues peu documentées de tous les continents) ;
Description succincte du projet scientifique dans le cadre duquel les données ont été collectées ;
Description des données : type de données, format et quantité (des données primaires : les enregistrements audio et/ou vidéo, ainsi que des données secondaires : transcription, annotation, traduction) ;
Perspectives d’enrichissement futur.
Date limite d’inscription et de dépôt du dossier : 15 juillet 2024, en remplissant le formulaire suivant https://framaforms.org/datathon-de-la-parole-2024-1718364957
Nombre maximum de participants : 15
Les participants dont les dossiers auront été retenus seront contactés fin juillet par les animateurs.
Pour plus d’informations, veuillez consulter le site internet de l’atelier : BnF Datalab
Lieu
Bibliothèque nationale de France – Site Tolbiac/François Mitterrand, Quai François Mauriac, Paris. Métro ligne 14 : Bibliothèque François Mitterrand, ou métro ligne 6 : Quai de la Gare.
Ressources
- Quelques informations au sujet du précédent datathon : https://lll.cnrs.fr/actualite/datathon/ et https://lacito.hypotheses.org/3073
- Les questions éthiques et juridiques ne sont pas l’objet du datathon, qui se concentrera sur l’opérationnel : le dépôt en archive et la publication électronique des données. Nous renvoyons :
- à la lettre d’information du groupe « Questions Ethiques & Cadre Juridique » du consortium Huma-Num « CORpus, Langues et Interactions » : https://corli.huma-num.fr/les-groupes-reseaux/gp4/
- à un guide précieux au sujet des données de la recherche : voir notamment la partie très synthétique sur la législation en vigueur (contexte général, données personnelles, licences) avec les références indispensables : https://mi-gt-donnees.pages.math.unistra.fr/guide/01-imaginer.html#comprendre-et-respecter-la-legislation-en-vigueur
- Le site du consortium Huma-Num « CORpus, Langues et Interactions » : https://corli.huma-num.fr/
- L’interface web d’une des collections hébergées par la plate-forme Cocoon : la collection Pangloss, consacrée aux langues rares https://pangloss.cnrs.fr/
Organisateurs
Flora Badin (LLL), Emmanuel Schang (LLL), Séverine Guillaume (LACITO), Michel Jacobson (Huma-Num), Audrey Viault (BnF), Fabrice Menneteau (BnF), Louise-Anne Charles (BnF-Datalab), Alexis Michaud (LACITO), Balthazar Do Nascimento (LACITO).