Collaborative research projects

Programs (co-)managed by Lacito members




  • Autogramm project (Induction de grammaires descriptives à partir de corpus annotés) This project has received funding from l’ANR (Agence Nationale de la Recherche) (2022-2026) 
  • The Autogramm project consists of four main partners:


LACITO :  Sylvain Loiseau (Université Sorbonne Paris Nord-LACITO), Isabelle Bril (CNRS-LACITO), Agnès Henri (INALCO-LACITO), Camille Simon (-LACITO),



Other partners : Llacan et Ertim.

The goal of this project is to automate, as far as possible, the extraction of descriptive grammars and grammatical descriptions from annotated corpora for linguistic and typological studies. We aim for descriptions that highlight the main properties of the corpus (and by extension the language or variety that the corpus represents); are easily understandable to a linguist; can be visualized by text, diagrams, or tables, including grammar databases generally oriented towards comparative and typological studies; and can vary in size.
As these grammatical descriptions are induced from a corpus, they contain quantitative information associated with each observation made on that corpus, as well as relevant examples extracted from it.

The project also promotes the development of treebanks for under-endowed languages, in order to extract quantitative descriptive grammars for these languages. The project uses the annotion scheme SUD (Surface-syntactic Universal Dependencies), the Grew-match query tool and the annotation tool ArboratorGrew.


    • Projet ANR, Marked constructions and information structure (2020-2024)

    French National Research Agency (ANR), Excellence Laboratory Empirical Foundations of Linguistics. Research group Marked constructions and information structureEvangelia Adamou (CNRS-LACITO), Co-PI; L. Brunetti, Co-PI.

    •  European Union’s Horizon 2020 research and innovation programme, ERC Starting Grant, Discourse Reporting in African Storytelling (2018-2023) 
    • This project has received funding from the European Research Council (ERC) under the European Union’s Horizon 2020 research and innovation programme (grant agreement n° 758232) to Tatiana Nikitina.

    The project explores strategies of discourse reporting characteristic of traditional narratives in African languages, and compares them to discourse reporting strategies attested in a number of Turkic languages spoken in Russia. The project team will be involved in data collection both in the field and in archives, in the statistical analysis of data, and in the development of annotated corpora of narrative texts.


    Programs managed by other institutions


    Sonja Riesberg (CNRS-LACITO) with Nikolaus P. Himmelmann, in the collaborative research center Prominence in Language (SFB 1252).


    • CLD2025 – Computational Language Documentation by 2025 (March 2020-March 2023)
    • Funding agency : ANR-DFG
      Coordinator : Gilles Adda (LIMSI-CNRS)
      Coordinator for LACITO : Alexis Michaud

    LACITO participants: Séverine Guillaume, Alexis Michaud
    Reference: ANR-19-CE38-0015-04
    The “Computational Language Documentation 2025” project (CLD2025) aims to leverage the potential of computational methods to facilitate the documentation of endangered languages. Tools based on machine learning can effectively support language annotation tasks: transcription, glossing, and translation. However, machine processing is still little-used, in particular because the technology is still new (and evolving rapidly) and because there is a lack of simple and user-friendly interfaces. The project aims at a co-construction of models and tools by field linguists and computer scientists.


    Past Programs

    Romani language repertoires in an open world (2019-2025, finished in 2021)

    Resp. Kimmo Granqvist (Södertörn University, Group 1), Yaron Matras (University of Manchester, Group 2), Dieter W. Halwachs (University of Graz, Group 3) and Evangelia Adamou (CNRS-Lacito, Group 4)
    Grant: Stiftelsen Riksbankens Jubileumsfond, Sweden
    The research programme aims at introducing a hitherto missing but much needed dimension into the study of Romani: It will examine the dynamics of complex linguistic repertoires in communities that are undergoing changes through increased mobility and transnational networking. It will map and analyse language practices in emerging settings and contexts of linguistic interaction that result from these change. We will also enrich current theoretical and methodological understanding of concepts and methods in ‘critical sociolinguistics’ by drawing on the example of Romani.
    This research programme will be carried by four groups, each based at one of the partner universities.
    Group 4, ‘Intercontinental migrations and language practices in cross-disciplinary perspective’, is coordinated by Evangelia Adamou. It is based at LACITO, CNRS, in Paris. For more details see here.

    SMILE - Sustaining Minoritized Languages in Europe (2018-2019)

    SMILE – Sustaining Minoritized Languages in Europe (2018-2019)
    Resp. Mary S. Linn (Smithsonian, USA)
    Case Study Communities (Galician, Greko & Griko, Irish, North Frisian, Occitan, Upper & Lower Sorbian)
    Occitan Case Study Communities: Resp. James Costa (Université Sorbonne Nouvelle / CNRS-Lacito) & Sara Brennan (CNRS-Lacito)
    Financement: the Smithsonian Center for Folklife and Cultural Heritage with funding from Ferring Pharmaceutics Inc
        This project will seek to understand how recent shifts in the strategies, discourses, and political context of the Occitan language revival movement have impacted contemporary efforts to revitalize the language in Southern France.
    We will focus on two shifts in particular: 1) Occitan language advocacy has, since the 2000s, increasingly focused on language transmission in the home and the use of Occitan in business, rather than concentrating primarily on education. 2) The French state created a new administrative region in 2016 called Occitania, marking the first time since the Middle Ages that a political entity has been given the name of France’s historically Occitan-speaking region.
    In order to examine the impact of these shifts on Occitan revitalization efforts, we will study three dimensions of local community engagement with contemporary language revival in Southern France: 1) the motivations and beliefs of Occitan language teachers and parents who seek to raise their children through Occitan, 2) how and why business owners engage with Occitan in their commercial lives, 3) the differing positioning of native speakers and language learners on these efforts.

    Documenting Nalögo, an Oceanic language of Santa Cruz Island (2017-2018)
    • Documenting Nalögo, an Oceanic language of Santa Cruz Island (2017-2018)
      Resp. : Valentina Alfarano
      Financement : ELDP (Endangered Languages Documentation Programme), Small Grant 0453
      Domicilié à la SOAS University.
    CorTypo: Constitution de Corpus Oraux pour des Recherches Typologiques (mars 2013-mars 2016, prolongé jusqu'en mars 2017)

    CorTypo: Constitution de Corpus Oraux pour des Recherches Typologiques (mars 2013-mars 2016, prolongé jusqu’en mars 2017)
    Financement : ANR
    Resp. : Amina Mettouchi (EPHE, Llacan)
    Participants Lacito : Isabelle BrilEvangelia Adamou

    Narrativité : paroles, textes, images (2013-2016)
    • Narrativité : paroles, textes, images (2013-2016)
      Participants : P. Dollfus (CNRS-CEH), V. Durand-Dastès (INALCO), F. Jacquesson (coordinateur, CNRS-Lacito), E. Leggeri-Bauer (INALCO), C. Laurent (Univ. de Rennes 2), V. Lavoix (INALCO) et P. Riboud (INALCO,) ainsi que 2 doctorants : N. Martin (EPHE) et K. Namgyal-Lama (Paris Sorbonne)
      Le projet a été déposé dans le cadre du 1er Appel à Projet du PRES Sorbonne Paris Cité. It est prévu sur trois ans, du 1er juin 2013 au 31 mai 2016.
      Nous examinons différents types de « récits en images », en Europe et en Asie (Chine, Inde, Japon, Tibet) confrontés à leur source textuelle, et étudiés quand c’est possible dans leur contexte vivant. Cette perspective ne prétend aucunement subordonner les arts figuratifs aux textes, ni réduire la spécificité de chaque ‘support’, mais elle souhaite se donner une méthode comparative précisément afin d’essayer de déterminer ce qui dans chaque domaine lui est propre, et ce qui reste comparable.
      Le projet est donc organisé sur deux axes :
      (A) l’axe des ‘supports narratifs’ : texte, série d’images, et dans certains cas récits théâtralisés,
      (B) l’axe ‘culturel’ puisque l’étude sera menée dans des cultures différentes.
      L’équipe est constituée de chercheurs et d’étudiants ou post-doc spécialistes de ces cultures et qui appartiennent à des champs disciplinaires variés : anthropologie, histoire, histoire de l’art, linguistique, littérature.
    HimalCo (Himalayan Corpora) (2013-2015)

    HimalCo (Himalayan Corpora) (2013-2015)
    Resp. : Guillaume Jacques (CNRS-CRLAO)
    Participants : Aimée Lahaussois (CNRS-HTL), Séverine Guillaume (CNRS-Lacito) et Alexis Michaud (CNRS-MICA, Hanoï)
          Ce projet porte sur la constitution de corpus parallèles pour trois sous-groupes de la famille sino-tibétaine. Il couvre huit langues à tradition orale, jusqu’ici peu décrites. Les corpus seront composés de textes et de données lexicales. Le choix se portera sur des textes dont la trame narrative est similaire (parfois quasi-identique) d’une langue à l’autre, mettant à profit l’existence de récits mythologiques partagés au sein de vastes régions de l’Himalaya. L’alignement des textes entre eux sur la base de leur trame narrative permettra une mise en regard inter-langues des tournures morphosyntaxiques. Le projet HimalCo intègre les deux étapes essentielles que sont la collecte de données de première main sur le terrain (au Népal et en Chine) et l’annotation complète de ces données selon les règles de l’art : transcription, gloses, et mise en forme informatique. Les données lexicales formeront partie intégrante de dictionnaires parlants, qui comprendront des enregistrements de mots isolés et de phrases entières. L’équipe du projet créera des interfaces simples pour la consultation des corpus parallèles et des dictionnaires parlants, outils pour la comparaison de données d’une même langue, et de langues d’un même sous-groupe, aussi bien que de langues de sous-groupes différents. Ce projet créera la base empirique solide qui faisait jusqu’ici défaut pour les recherches au sujet de ces langues. L’intégralité des données sera librement disponible en ligne via la collection Pangloss, dont l’interface sera enrichie pour l’interrogation des textes parallèles et dictionnaires parlants.
    Site du projet.

    Ḍād types in south-west Saudi Arabia (2011-2013)

    Ḍād types in south-west Saudi Arabia (2011-2013)
    Dr Munira Al-Azraqi (University of Dammam, Saudi Arabia), Dr Barry Heselwood (University of Leeds), Dr Samia Naim (CNRS-Lacito) and Pr. Janet Watson (University of Salford) are currently collaborating on a research project entitled ‘Ḍād types in south-west Saudi Arabia‘ funded by the King Faisal Center for Research and Islamic Studies, Saudi Arabia.
         This research brings together historical linguistics, Arabic dialectology, geographical linguistics, instrumental phonetics and linguistic typology.
         Dạ̄d is the name of the Arabic letter ض  which corresponds to a sound-type which varies across different varieties of modern Arabic. Historically this sound was believed to be unique to the language, leading the medieval Arab grammarians to describe Arabic as ‘the language of ḍād‘. Today ḍād corresponds to a sound-type with realisations that vary across the Arab world. This variation is due in part to contact with other languages (substrata, adstrata and superstrata). In most modern Arabic varieties, the sound is produced with complete closure between the sides of the tongue and the inner surfaces of the molars; in some of these dialects, it is realised as a voiced plosive (a bit like the ‘d’ in English dark); in others, it is realised as a voiced central fricative (like the ‘th’ in English the); in both variants, it is accompanied by a narrowing of the pharynx (pharyngealisation). These realisations contrast significantly with the medieval descriptions of scholars such as Sībawayh (8th century) in which the air was said to exit from the sides of the tongue rather like it does in an English ‘l’-sound, but accompanied by friction and pharyngealisation – [ɮˁ] in International Phonetic Alphabet notation.
         Through the work of Dr Al-Azraqi, it has recently come to light that speakers in some of the more remote villages in south-west Saudi Arabia produce the ḍād as a lateral sound after the medieval fashion (Al-Azraqi 2010). The current project is using, in addition to traditional auditory phonetic analysis, the instrumental phonetic methods of sound spectrography and electropalatography (the latter equipment purchased with the University of Leeds Faculty of Arts SRIF money a few years ago) to try to ascertain the tongue position more precisely and to compare it with the tongue position in other sounds in these dialects. Barry Heselwood’s role is to analyse the instrumental data so that the other members of the project team can use this information to set this sound, and these dialects, in their historical context from phonological, dialectological and typological points of view.
    Al-Azraqi, M. (2010) The Ancient Ḍād in Southwest Saudi Arabia. Arabica 57, 57-67.

    Mon-Kmer Languages Project. Projet N.E.H. (U.S.A.) (renouvelé 2010-2014)

    Mon-Kmer Languages Project. Projet N.E.H. (U.S.A.) (renouvelé 2010-2014)
    Resp. : Paul Sidwell, université A.N.U. (Australie) et C.R.L. Bangkok (Thaïlande)
    Participant Lacito, en tant qu’expert : Anne Daladier

    Textual and Lexical Documentation of Ixcatec, a highly endangered Otomanguean language of Oaxaca, Mexico (2010-2013)

    Textual and Lexical Documentation of Ixcatec, a highly endangered Otomanguean language of Oaxaca, Mexico (2010-2013)
    Financement : Endangered Languages Documentation Program (ELDP), Major Documentation Project
    Resp. : Denis Costaouec (Sedyl-CNRS)
    Participant Lacito : Evangelia Adamou

    EuroSlav : Base de données électronique de variétés slaves menacées dans des pays européens non slavophones / Electronic database of endangered Slavic varieties in non-Slavic speaking European countries (2010-2012)

    EuroSlav : Base de données électronique de variétés slaves menacées dans des pays européens non slavophones / Electronic database of endangered Slavic varieties in non-Slavic speaking European countries (2010-2012)
    Coord. Evangelia Adamou & Walter Breu (U. Konstanz)
    Financement : Agence Nationale de la Recherche (ANR-09-FASHS-025) & Deutsche Forschungsgemeinschaft (DFG)

    A pan-dialectal documentation of Laz (South Caucasian) (2010-2012)

    A pan-dialectal documentation of Laz (South Caucasian) (2010-2012)
    Resp. : René Lacroix
    Financement : HRELP-ELDP
    (domicilié au Max Planck Institute for Evolutionary Anthropology)
         This project will document the four dialects of Laz, a non-written South Caucasian language spoken in North-East Turkey (ISO-639 lzz, +41° 19′ 12.39″, +41° 15′ 37.90″). Estimates of the number of speakers vary widely between 33,000 and 250,000. Nonetheless, Laz is a highly endangered language, as young people do not speak it. Turkish is the language of education, administration and the media. The outcome will be a digital corpus of 50 hours of audio and video recordings, transcribed and translated into Turkish, out of which 5 hours will be provided with an interlinear gloss. Various genres will be documented. To this end, two fieldwork trips will be undertaken, totaling 11 months.

    Contacts de langues : Analyses plurifactorielles assistées par ordinateur et conséquences typologiques (2009-mars 2014)

    Contacts de langues : Analyses plurifactorielles assistées par ordinateur et conséquences typologiques (2009-mars 2014)
    Financement : ANR
    Resp. Isabelle Léglise (Sedyl-CNRS)
    Participant Lacito : Evangelia Adamou

    The Kurumba Languages of the Nilgiris in South India (2009-2013)

    The Kurumba Languages of the Nilgiris in South India (2009-2013),
    Resp. : F. Heidemann (Universität München) & C. Pilot-Raichoor (CNRS-Lacito)
    Financement : Volkswagen Foundation (dans le cadre des projets Dokumentation bedrohter Sprachen / Documentation of Endangered Languages)
         The aim of the project is to collect, archive and make available a long lasting and multipurpose multimedia documentation of the language and culture of the Kurumbas in South India. The Kurumbas live in small groups dispersed on the slopes and in the forest areas encircling the Nilgiris. This mountainous massif rises abruptly and culminates in a hilly plateau ranging from 2000 – 2600 m in elevation, bordered by dense, tropical forest extending to its foothills. The whole Nilgiri area is sparsely inhabited by very small and mobile tribal groups, depending mainly on the environment for subsistence. The urgency of the documentation is motivated by the fast disruption of the traditional social ties and ways of life. The project will document the Kurumba language spoken by four distinct groups of people: the Jenu Kurumba, the Alu Kurumba, the Cholanaika and the Mullu Kurumba. The French-Indian-German project will give priority to the linguistic and ethnographic features linked to the natural environment, the tribal mode of life and the specific Nilgiri cultural traditions. For instance, a search for ‘honey collection’ will give access to videos showing how different groups practice it, to the audio files and annotated texts of the narratives and songs related to this activity, to the vocabulary connected to this theme.

    Complexité syntaxique et diversité typologique (2009-2011)

    Complexité syntaxique et diversité typologique (2009-2011)
    Financement : PICS
    Resp. : Claudine Chamoreau (Sedyl-CNRS), Zarina Estrada Fernández (Universidad de Sonora, Mexique)
    Participant Lacito : Isabelle Bril

    Lost in intonation: the interaction of intonation and meaning in the speech of L1, L2 and heritage speakers of Greek and its implications for cross-cultural communication and education (2009-2010)

    Lost in intonation: the interaction of intonation and meaning in the speech of L1, L2 and heritage speakers of Greek and its implications for cross-cultural communication and education (2009-2010)
    Resp. Marina Terkourafi (University of Illinois)
    Financement : Illinois-Worldwide Universities Network (WUN)
    Participant Lacito : Evangelia Adamou

    PASQi Phylogenetic Assessment of Southern Qiangic languages (2008-2011), projet interdisciplinaire sur linguistique et ethnobotanique

    PASQi Phylogenetic Assessment of Southern Qiangic languages (2008-2011), projet interdisciplinaire sur linguistique et ethnobotanique
    Financement : ANR
    Resp. Ekaterina Chirkova (CRLAO-CNRS)
    Participant Lacito : Alexis Michaud

    Histoire et géographie de la couleur : faits de langue et systèmes de communication (2008-2009)

    Histoire et géographie de la couleur : faits de langue et systèmes de communication (2008-2009)
    Ce projet a été financé par l’ISCC (Institut des Sciences de la Communication du CNRS). Il a commencé en septembre 2008 et s’est terminé en décembre 2009. Nous avons voulu jeter les bases d’une sorte d’atlas historique des systèmes de couleur, en partant de ce que nous connaissons le mieux : l’Europe occidentale moderne et contemporaine, et nous appuyant sur les recherches très vivantes qui ont lieu sur ce thème aussi pour les périodes médiévales et antiques ; puis en cherchant à les étendre vers le monde germanique, le monde byzantin etc. afin de repérer les lignes de rupture qui signalent le passage d’un “système de couleurs” à un autre.
    Le projet était domicilié au LACITO sous la direction de François Jacquesson. Il était animé aussi par Pascale Dollfus (Labo “Milieux, Sociétes et Cultures en Himalaya”) et Michel Pastoureau (EPHE, EHESS).

    Autour du Brahmapoutre : "Langues, cultures et territoires du Nord-Est indien." (2007-2011)

    Autour du Brahmapoutre : “Langues, cultures et territoires du Nord-Est indien.” (2007-2011)
    Responsable François Jacquesson (Lacito).
    Financé dans le cadre des Programmes Blanc de l’Agence Nationale pour la Recherche (ANR-06-BLAN-002-04).
         Programme pluri-disciplinaire et international d’études sur le Nord-Est de l’Inde, réunissant des chercheurs et étudiants anthropologues, géographes, historiens et linguistes. Le but est de mieux comprendre l’histoire et la géographie des populations du Nord-Est de l’Inde, les causes et modalités de la mobilité des populations et les fondements non moins mobiles de leurs identités.

    Épopée Népal : "Langues et traditions orales de l'ouest népalais". Projet domicilié au LACITO (2007-2010)

    Épopée Népal : “Langues et traditions orales de l’ouest népalais”. Projet domicilié au LACITO (2007-2010)
    Élaboré par Boyd Michailovsky (responsable, Lacito) et Marie Lecomte-Tilouine (Centre d’Études Himalayennes, UPR 299)
    Autres participants de l’UPR 299 : Franck Bernède et Rémy Bordes.
    Financement : Agence Nationale de la Recherche, dans le cadre de l’appel à projets “Corpus et outils de la recherche en sciences humaines et sociales” (ANR-06-CORP-030-01)
         La variété et l’abondance des traditions orales au Népal occidental font de cette région un véritable laboratoire pour l’étude de plusieurs genres importants et menacés. L’épopée orale huḍkelī, déclamée et chantée par des bardes membres de la caste de tailleurs-musiciens a depuis longtemps attiré l’intérêt de chercheurs français : Marc Gaborieau et Mireille Helffer (1969), Franck Bernède, Marie Lecomte-Tilouine, Rémy Bordes. Leurs enregistrements et annotations ont été réunis sous forme numérique et complétés ; une partie est accessible dans une archive numérique. Un deuxième genre majeur est la récitation chamanique. Les enregistrements de ces récitations correspondant aux textes volumineux publiés par G. Maskarinec (Université de Hawaïi) ont été numérisés et sont en cours d’archivage avec leurs annotations. Quelques enregistrements de langue informelle dans une variété du népali de l’extrême ouest ont également été archivés. L’enrichissement de ces corpus, ainsi que leur analyse linguistique, ethnographique et ethnomusicologique se poursuit. À suivre en anglais sur le site Épopée Népal.

    Etude des langues de la Province Nord : contrat entre le Lacito et la Province Nord de la Nouvelle-Calédonie (2005-2010)

    Etude des langues de la Province Nord : contrat entre le Lacito et la Province Nord de la Nouvelle-Calédonie (2005-2010).
    Participants : J.-C. RivierreI. Bril et C. Moyse-Faurie.
    Objectif du projet : Une vingtaine de langues kanak sont parlées sur le territoire de la Province Nord. Pour plus du tiers d’entre elles, la documentation publiée est extrêmement restreinte, voir inexistante. Le présent projet vise à combler cette lacune dans les cinq années qui viennent en associant les compétences des linguistes, spécialistes des langues kanak, et celles des locuteurs, des étudiants ou des personnalités locales susceptivles de se consacrer à l’étude et à la valorisation des langues. La finalité du projet est de produire une documentation comprenant :
         – un dictionnaire thématique et alphabétique
         – des textes de tradition orale et une présentation grammaticale
    Avantage du dictionnaire thématique : les différents aspects de la culture matérielle, de la vie sociale, du monde naturel et géographique sont passés en revue et l’ensemble du vocabulaire est réparti entre ces différents thèmes. Une telle présentation facilite l’élaboration de documents à finalité pédagogique ou culturelle.

    East meets West (2000-2003 et 2003-2007)

    East meets West (2000-2003 et 2003-2007)
    Un projet européen et pluridisciplinaire sur le Centre de l’Asie et le Nord-Est indien, sous la responsabilité de F. Jacquesson.
    Financement : European Science Foundation (ESF)

    Les dialectes balkaniques de Bulgarie, programme d'actions intégrées franco-bulgare (RILA)

    Les dialectes balkaniques de Bulgarie, programme d’actions intégrées franco-bulgare (RILA)
    Resp. pour la France : Z. Guentchéva ; pour la Bulgarie : P. Assenova (université de Sofia)

    DALLITH (Documentation et Archivage Langues et LInguistique Tibétaines et Himalayennes). PICS n°2554 (2004-2006)

    DALLITH (Documentation et Archivage Langues et LInguistique Tibétaines et Himalayennes). PICS n°2554 (2004-2006)
    Collaboration entre le programme “Archive du Lacito” et le programme THDL (Tibetan and Himalayan Digital Library) de la Bibliothèque Digitale de l’Université de Virginie.
    Responsable France : N. Tournadre ; responsable USA : D. Germano.