Silhouette femme

Jennifer LEWIS-WONG  

Docteure en Linguistique

Thèse soutenue à l’INALCO, le 27 janvier 2023 : « Enjeux et méthodes pour la création de corpus en langues peu dotées. Application à la classification de textes pour l’apprentissage du birman», co-dir. Mathieu Valette (ER-TIM) ​& San San Hnin Tun (LACITO/INALCO)

Thèmes de recherche

Résumé de thèse

“Trouver du matériel de lecture adapté aux apprenants de langues peu enseignées est un problème courant, tant pour les apprenants que pour les enseignants. Le traitement automatique offre des méthodes prometteuses pour faciliter ce processus. Comme leur mise en œuvre nécessite des corpus d’entraînement spécifiques à la langue, et que ces langues sont également peu dotées, la qualité des corpus est encore plus importante. Il nous a semblé nécessaire de considérer les particularités de la langue et de l’informatisation de son système d’écriture et le contexte d’utilisation du corpus, les études en linguistique et en lexicographie, les aspects culturels et même la tradition d’enseignement, car les apprenants sont probablement davantage influencés par les ressources existantes lorsqu’elles sont peu nombreuses. Cette thèse porte sur une méthode d’évaluation lexicale de textes pour le birman langue étrangère. D’abord la création de deux types de corpus : des textes authentiques et des ressources didactiques, ce dernier renseignant comment segmenter en unités minimales d’analyse ou « mots », prétraitement nécessaire car le birman ne les délimite pas par des espaces. Nous prenons également en compte les aspects culturels et la fréquence conjointe des syllabes dans l’entraînement d’un outil de segmentation. Les textes authentiques sont utilisés pour créer une liste de fréquences lexicales, utilisant la méthode de la fréquence réduite moyenne pour tenir compte de la dispersion. Cette liste est utilisée pour entraîner une SVM afin de classer les textes par difficulté croissante, méthode purement lexicale et prometteuse pour les langues peu dotées.”

 

Programmes de recherche

Opération de recherche au LACITO :
Terrains, Analyses, et Comparaison des Langues

 

Mots-clés

anglais – birman

Publications récentes ou importantes

  • 2016, Lewis-Wong, J. & Mkhitaryan, S. (2016) Pratique de la lecture en L2 : classification automatique de textes en thaï et en hindi par progression lexicale. In JEP-TALN-RECITAL 2016Proceedings of the Joint Conference JEP-TALN-RECITAL 2016, vol 09: ELTAL. (sur HAL)

FORMATION

  • 2015, Mémoire M2 “Pratique de la lecture en L2 : classification automatique de textes en thaï par progression lexicale” (détails ici)

Communications

  • (2017) Lewis-Wong, J. Using Lexical Frequency to Calculate Text Readability for L2 Learners of Burmese. Presented at the 9th AILA-Europe Junior Researcher Meeting in Applied Linguistics, Vienna, Austria, 8 September 2017.
  • (2016) Lewis-Wong, J. & Mkhitaryan, S. (2016) Pratique de la lecture en L2 : classification automatique de textes en thaï et en hindi par progression lexicale. Presented at the Joint Conference JEP-TALN-RECITAL 2016, Paris (France), juillet 2016.
  • Lewis-Wong, J. & Hnin Tun, S. Finding Context in Less-commonly-studied Languages: Character Encoding & Tokenization. Presented at IVACS, Bath, Great Britain, 16-17 June 2016.
Aller au contenu principal