Top » Directory

Informations
Presentation
Inscription
Contact Us
Directory
Private company
Research Organizations
Associations
Tools
Quick Find
 
Use keywords to find the product you are looking for.
Advanced Search
<<< TEXT_PAGE_PREC
TOOL_TIP_LISTE TOOL_TIP_PRINT
TEXT_PAGE_NEXT >>>
Langid
Identificateur Automatique de Langue et de codage de caractères
Identification
Typologie : Identification de la langue 
Catégorie : Outil 
Langues : allemand  anglais  
Organisme :
Description :
*Apprentissage :
Avant d'utiliser le système, il est nécessaire de passer par une phase d'apprentissage. L'apprentissage se fait sur des corpus de texte dont la langue est connue, plus le corpus est important, plus l'apprentissage est précis (le minimum est de 50 ko par langue, mais c'est un minimum).

Le système est livré avec les profiles (voir langid.grp) pour l'Anglais, le Francais et l'Allemand en ISO-8859-1 en conservant les 100 meilleurs n-grams pour chacun des couples (langue,codage) ce qui accélère grandement le système mais peut engendrer des erreurs sur des très petites parties de texte (moins de 10 caractères).

Il est conseillé de faire l'apprentissage sur les n-grams de taille 2 (pour tester les chaînes ou fichiers de moins de 20 caractères) et de taille 3 (pour des textes plus important > 20 caractères).

*Groupe de profiles :
Avant de lancer une procédure d'identification de la langue sur un ou plusieurs textes, il convient de créer un fichier que l'on appelle "Groupe de Profiles".


*Identification de la langue:
Le système est livré avec une commande qui permet des tester un ou plusieurs fichiers et une API qui permet de tester un fichier ou une chaîne.

*Commande : La commande langid permet de tester un ou plusieurs fichiers :

*Fonctions CheckFile et CheckString
L'outil est également livré avec une API simple en langage C permettant d'intégrer le système dans une application indépendante.

Remarque : Pour l'instant l'outil ne gère que le codage ISO-8859-1 mais il est prévu pour supporter l'ensemble des codages 8 bits.
Informations technique
Support : FTP
Taille : 0,5 Mo
Type de machine : Station de travail
Système : Unix Solaris - Linux ...
Mémoire Minimum : 8 Mo
Mémoire recommandée : 16 Mo
Espace disque : 1 Mo
Intégration
Autonomie :
Disponibilité commerciale, technique et légale
Documentation en ligne :
Documentation en français :
Utilisateurs potentiels : Intégrateur,
Contact
M. Patrice Bonhomme
Email : Patrice.Bonhommeloria.fr
Fax : 03 83 27 83 19
Téléphone : 03 83 59 20 01 / 03 83 59 20 37
Created date : 2005-02-25 12:57:49