Typologie : Identification de la langue Catégorie : Outil Langues : allemand
anglais
Organisme : Description : *Apprentissage :
Avant d'utiliser le système, il est nécessaire de passer par une phase d'apprentissage. L'apprentissage se fait sur des corpus de texte dont la langue est connue, plus le corpus est important, plus l'apprentissage est précis (le minimum est de 50 ko par langue, mais c'est un minimum).
Le système est livré avec les profiles (voir langid.grp) pour l'Anglais, le Francais et l'Allemand en ISO-8859-1 en conservant les 100 meilleurs n-grams pour chacun des couples (langue,codage) ce qui accélère grandement le système mais peut engendrer des erreurs sur des très petites parties de texte (moins de 10 caractères).
Il est conseillé de faire l'apprentissage sur les n-grams de taille 2 (pour tester les chaînes ou fichiers de moins de 20 caractères) et de taille 3 (pour des textes plus important > 20 caractères).
*Groupe de profiles :
Avant de lancer une procédure d'identification de la langue sur un ou plusieurs textes, il convient de créer un fichier que l'on appelle "Groupe de Profiles".
*Identification de la langue:
Le système est livré avec une commande qui permet des tester un ou plusieurs fichiers et une API qui permet de tester un fichier ou une chaîne.
*Commande : La commande langid permet de tester un ou plusieurs fichiers :
*Fonctions CheckFile et CheckString
L'outil est également livré avec une API simple en langage C permettant d'intégrer le système dans une application indépendante.
Remarque : Pour l'instant l'outil ne gère que le codage ISO-8859-1 mais il est prévu pour supporter l'ensemble des codages 8 bits. |
|