10 novembre 2006
Technolangue.net
Entretien avec Laurent Romary, conseiller scientifique auprès de la Direction de la recherche pour l’informatique linguistique et l’information scientifique et technique.
XML est l’abréviation de Extensible Mark-up Language (langage de balisage extensible). Le XML est un langage informatique codant la structure et l’organisation de l’information d’un document. Ce langage ouvert permet notamment l’échange des données et de leurs structures.
Actuellement les balises sont décrites dans un document et accompagne la ressource balisée : le document type DATA (DTD) ou le « XML Schemas » qui reposent sur une syntaxe XML.
Le XML est le dernier mot à la mode. Il envahit l’informatique car le besoin d’échanger des textes sur le web est de plus en plus grand.
Pouvez-vous définir le XML ?
XML est le successeur de SGML et de HTML pour la représentation de documents semi-structurés. Il s’agit d’un métalangage qui permet de définir des langages de balisage pour la représentation d’informations destinées à être échangées sur l’Internet. On peut ainsi envisager d’utiliser XML pour la représentation d’entrées de dictionnaire, pour la représentation de textes de théâtre ou encore pour échanger entre masses de données à l’aide d’un jeu de balisage particulier.
Ce sont deux choses partiellement liées. HTML est un jeu de balises particulier, qui permet de présenter l’information sur écran par l’intermédiaire d’un navigateur web. HTML est donc potentiellement une application de XML. Il existe d’ailleurs, au niveau du W3C, le consortium qui gère les échanges de données sur Internet, une version de HTML appelée le XHTML compatible avec XML.
À peu près tout le monde, en le sachant ou en ne le sachant pas. A priori XML va devenir à terme le seul langage de représentation de l’information sur l’Internet. On va donc avoir aussi bien des spécialistes pour échanger des informations de type bases de données que des praticiens de types particuliers d’informations, par exemple de l’information linguistique.
On espère que petit à petit, par le jeu de la normalisation internationale, on permettra le développement d’interfaces, qui en quelque sorte rendra transparent l’utilisation de XML par différentes personnes. Il pourra y avoir des formulaires qui permettent aux gens d’entrer des entrées de dictionnaire en ligne, sans savoir que derrière il y aura une représentation normalisée utilisant par exemple la Text Encoding Initiative, qui est l’un des formats XML pour représenter des dictionnaires.
Du côté des professionnels, tout le monde va devoir s’intéresser à XML. Il faut d’abord identifier dans un premier temps en quoi XML peut être une application potentielle. L’étape suivante probablement pour la plupart des communautés de professionnels - par exemple dans le domaine de l’éducation - va être de normaliser véritablement les jeux de balises exprimées en XML qui correspondent très précisément à leurs besoins. Il y a donc un deuxième niveau de normalisation, qui va se greffer sur la normalisation de XML proprement dite en tant que métalangage.
Les techniques sont relativement simples dans un premier temps, puisque XML est un langage directement lisible. Il s’exprime sous la forme de textes, avec des balises mélangées à l’intérieur du texte véritablement lisible. Au départ on peut donc déployer la technologie XML avec un simple éditeur de texte. Bien sûr quand on veut faire des choses plus avancées, il faut des logiciels qui permettent d’une part d’envisager des environnements d’édition un peu professionnalisés, comme on dit wysiwyg (what you see is what you get), permettant de visualiser les informations telles qu’on veut les voir in fine dans le document particulier.
D’autre part, il faut des logiciels qui permettent de transformer l’information par des feuilles de style XSLT qui permettent de transformer un document XML en un autre document, par exemple en un document HTML. Si on va un peu plus loin, on aura besoin, si on a des grandes quantités d’informations, de déployer des bases de données qui connaissent le langage XML et qui vont pouvoir répondre à des requêtes très précises. Si on reprend l’exemple du dictionnaire, on va pouvoir récupérer toutes les entrées dont la forme orthographique contient « pom » : on récupèrerait alors pomme, pomme de terre, pommier, etc.
Aujourd’hui, ce sont des usages encore très ponctuels, puisque le déploiement de la technologie XML n’est pas encore complètement fait, même s’il y a des communautés qui travaillent dessus. Les usages principaux sont des usages « occultes », c’est ce qu’on appelle le « B to B » (Business to Business) : on échange de l’information entre entreprises. Il est plus difficile de voir un déploiement large de XML dans des applications plus culturelles, pédagogiques, etc. Il existe des groupes de normalisation, qui travaillent dans le domaine des langues, de la représentation de document ou encore dans l’enseignement. Il y a par exemple un comité de l’ISO, le TC36, complètement dédié aux applications liées à l’enseignement et qui déploie des formats reposant sur XML.
Immanquablement, puisque ça devient le seul outil véritablement de communication. Le temps que tous les professionnels se mettent à XML, ce langage sera devenu transparent. L’utilisateur final ne verra plus qu’il s’agit d’information XML, puisque l’information lui sera délivrée sous la forme d’information transformée par une feuille de style qui permettra juste de voir des choses en gras, en italique, en rouge. On ne saura plus s’il y a du XML derrière.
C’est principalement au niveau de la normalisation. Au delà de l’enthousiasme initial (XML date de février 1998), la difficulté est de complètement stabiliser des jeux de balises ou des pratiques éditoriales au sein de certaines communautés. Et il existe encore un travail important pour déployer les méthodes qui accompagnent XML. Il faut faire encore beaucoup d’enseignements qui intègrent véritablement le XML et les pratiques autour de XML dans les formations universitaires, dans les écoles d’ingénieur.
C’est sa disparition en tant qu’objet visible. Actuellement quand on fait des échanges entre deux ordinateurs, on ne voit pas en dessous, il y a un réseau qui s’appuie sur des protocoles, le TCP-IP par exemple. C’est devenu tellement transparent pour aller sur une adresse web et récupérer une information.
Pour XML l’étape suivante va être d’avoir véritablement tout un ensemble d’outils, une plate-forme logicielle qui permette de rendre XML transparent. L’autre étape qui me paraît très importante serait d’avoir des outils de modélisation. Je ne pense pas nécessairement à XML, mais à des modèles de données qu’on a envie de représenter. Ils sont plus destinés aux praticiens et aux informaticiens mais peut-être aussi d’une certaine façon aux utilisateurs. Pour reprendre l’exemple de l’entrée de dictionnaire, on aurait bien envie de dire que celle-ci n’est pas telle ou telle balise mais qu’elle est formée d’un bloc qui en identifie la morphologie, les différents sens imbriqués avec différentes définitions, l’étymologie, etc. On voit après se dessiner plutôt un modèle qu’une représentation XML. C’est seulement dans un deuxième temps que l’utilisateur va dire à son informaticien « voilà mon modèle, arrange toi pour le mettre en XML ».
Dans le domaine de l’éducation, il y a beaucoup de choses à faire. Il y a deux grandes classes d’utilisation de XML : • La représentation de contenus qui vont être utilisés dans des cadres éducatifs ; • L’identification des contenus, ce qu’on appelle les métadonnées. Pour la représentation des contenus, on peut s’appuyer sur un certain nombre d’initiatives de représentation de tout ce qui est matériau textuel. Il faut faire un travail supplémentaire pour avoir, par exemple, un jeu de balises standardisées pour représenter des classes d’exercices particulières (QCM, examen, etc.).
Du point de vue des métadonnées, il faut faire des progrès sur la qualification des objets qu’on va devoir échanger dans un contexte de e-learning (éducation à distance, éducation médiatisée par l’informatique) pour qu’un ensemble de documents correspondent effectivement à des examens, à des interrogations. Il y a donc tout un ensemble d’applications potentielles de XML pour rendre interopérables toutes ces informations.
Le rêve typiquement serait qu’on puisse travailler sur un texte philosophique et, en même temps, pouvoir aller chercher un mot inconnu dans un dictionnaire, puis ensuite, compiler l’information en prenant la citation dans le texte philosophique et celle issue du dictionnaire pour les intégrer à son propre document XML. XML est là pour assurer une couche de transparence entre différents types de documents, à condition que des balises soient normalisées. On peut envisager des applications très ambitieuses dans le domaine de l’enseignement, grâce aux déploiements de technologies XML.
C’est lié à la notion de modèle dont je parlais tout à l’heure. Il est indispensable que les enseignants et les étudiants, qui vont être amenés à manipuler ces matériaux, aient au moins une idée des structures qui sont derrière les formats XML d’un point de vue strictement informatique.
Cela va forcément changer la pédagogie, puisqu’on va pouvoir accéder à beaucoup plus d’informations, beaucoup plus rapidement et croiser les informations. On peut envisager que cette pédagogie va laisser plus de place à la synthèse plutôt qu’à la transmission d’informations brutes. On va juger chez un étudiant sa capacité à compiler des informations, à les croiser et moins à connaître un texte parce que celui-ci sera directement en ligne sur son portable.
Propos recueillis par Marie-Noëlle Rohart
Pour le laboratoire CRIS - Université Paris X
Printemps 2004
En savoir plus :
Bibliographie
• Deux synthèses incontournables :
• Pour avoir un aperçu des applications XML existantes :
Liens internet et autre information
• Pour s’initier à XML :
• Pour travailler en XML :
• Outils de création XML :
• Analyseurs (parseurs) XML :
• Outils de création XSLT :