NLP: Classification of Indo-European languages

GDG Cloud Sherbrooke
Thu, Sep 22, 6:00 PM (EDT)

10 RSVP'ed

About this event

Summary of the presentation: Many parallels between the process of evolution in linguistics and Darwinian biological evolution have been observed. Atkinson and Gray (2005) presented a table of the most important conceptual parallels characterizing biological and linguistic evolution.

Important studies have examined phylogenetic methods and their application to linguistic data. One of the most studied areas in biolinguistics remains the evolution of Indo-European (IE) languages. Unfortunately, neither phylogenetic trees nor split-graphs can be used to predict and represent lexical borrowing. I will present a new approach to model the evolution of IE languages using a phylogenetic network model. The advantage of this new approach over the classical approach, which uses the topology of a phylogenetic tree (i.e., an additive or X-tree) to represent the evolution of natural languages, is that the network model, based on a horizontal gene transfer detection algorithm, also allows us to identify the lexical borrowings that have occurred during evolution and to estimate the rate of horizontal exchange between different language groups.

------------

Résumé de la présentation : De nombreux parallèles entre le processus d'évolution en linguistique et l'évolution biologique selon Darwin ont été observés. Atkinson et Gray (2005) ont présenté un tableau des parallèles conceptuels les plus importants caractérisant l'évolution biologique et linguistique.

D'importantes études ont considéré des méthodes phylogénétiques et leurs applications aux données linguistiques. Un des domaines largement étudié en biolinguistique demeure l'évolution des langues indo-européennes (IE). Malheureusement, ni les arbres phylogénétiques, ni les split-graphes ne peuvent être utilisés pour prédire et représenter le phénomène d'emprunt lexical. Je présenterai une nouvelle approche permettant de modéliser l'évolution des langues IE à l'aide d'un modèle phylogénétique en réseau. L'avantage de cette nouvelle approche par rapport à l'approche classique, qui utilise la topologie d'un arbre phylogénétique (i.e., additif ou X-arbre) pour représenter l'évolution des langues naturelles, est que le modèle en réseau, basé sur un algorithme de détection de transferts horizontaux de gènes, permet aussi d'identifier des emprunts lexicaux survenus en cours de l'évolution et d'estimer le taux d'échanges horizontaux entre différents groupes des langues.

-----------

Biographie : Pre Nadia Tahiri est bio-informaticienne, biologiste moléculaire/évolutionniste et informaticienne. Elle est présentement professeure adjointe au Département d’informatique et membre du thème fédérateur de l’Université de Sherbrooke - Ère numérique : formations et organisations intelligentes, membre du Centre de recherche en écologie de l’Université de Sherbrooke (CREUS), au groupe de recherche en informatique fondamentale de l'Université de Sherbrooke (GRIF), et au centre de la science de la biodiversité du Québec (CSBQ). Elle s’intéresse à l’histoire évolutive des espèces en intégrant les paramètres climatiques. Plus particulièrement, elle travaille à l'établissement des bases mathématiques et statistiques permettant de résoudre le problème difficile de la classification des arbres phylogénétiques, ainsi qu'à la création d'une nouvelle plateforme à code source ouvert permettant aux biologistes d'utiliser ces nouvelles méthodes. Nadia est également très impliquée dans des initiatives communautaires visant à promouvoir les femmes dans le domaine de la technologie et à rendre les programmes des comités plus inclusifs (les bons gestes pour l'équité, la diversité et l'inclusion).

Speaker


Organizer

  • Nadia Tahiri, PhD

    Nadia Tahiri, PhD

    University of Sherbrooke

    Organizer

    View Profile