Typologie : Identification de la langue Catégorie : Produit/Logiciel Langues : allemand
anglais
espagnol, castillan
italien
arabe
basque
basque
bulgare
chinois
croate
danois
estonien
finnois
hongrois
japonais
malais
polonais
russe
turc
Organisme : Description : Lorsqu'on lui soumet un texte quelconque, SILC tente de déterminer dans quelle langue ce document est écrit et avec quel jeu de caractères il est encodé. À cette fin, il dispose pour chaque couple langue/encodage connu, d'un modèle qui associe une certaine probabilité au texte soumis et de critères qui lui permettent de choisir le modèle gagnant.
La performance de SILC est presque sans faille lorsqu'on lui soumet des textes raisonnablement "propres" et suffisamment longs (plus de 50 caractères). |
|