Resources

Corpus Bambara de Référence

Langue : Bamanankan

Le Corpus Bambara de Référence est un corpus massif de textes annotés en langue bambara.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 100.000 dans le sous-corpus désambiguïsé. Ce chiffre progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. L'objectif est d’atteindre 7 à 10 millions de mots, dont environ 1 million dans le sous-corpus désambiguisé.

L’idée de création d’un corpus bambara de référence est née dans les années 2007-2008. Le groupe de travail a vu le jour à la fin de 2009. De nos jours, il se compose de linguistes et informaticiens de Paris, Saint Petersbourg, Lviv ; des linguistes de différents pays d’Europe et d’Afrique l’assistent avec leurs consultations et données.

Sujets : Dictionnaire, Textes
Voir les ressources ici: