Le Centre National de Ressources Textuelles et Lexicales

Par décision commune en date du 22 février 2006, la direction du département « Homme et Société » et la Direction de l’information scientifique du CNRS ont créé le Centre National de Ressources Textuelles et Lexicales (CNRTL) en s’appuyant sur l’UMR ATILF de Nancy.
Le CNRTL a été mis en place afin de fournir un service à la communauté nationale de recherche pour la création, gestion et diffusion de ressources textuelles et lexicales. Les soutiens du CNRS, de l’INRIA et de la région Lorraine, ainsi que la mise à disposition des moyens techniques et humains de l’ATILF permettent de lancer dès à présent un programme d’actions centré sur :

  • L’identification des ressources existantes ainsi que des outils associés, au sein d’un portail unifié compatible avec les principes initiés par les projets IMDI et OLAC ;
  • Un accompagnement éditorial visant à intégrer les ressources dans des formats pérennes et documentés, compatibles avec les initiatives internationales de normalisation (W3C, ISO et TEI) ;
  • Des actions de formation à destination des chercheurs et ingénieurs des laboratoires concernés ;
  • La définition d’une plate-forme d’accès en ligne à ces ressources par le biais d’outils génériques de concordance, d’annotation et de versionage ;
  • La dissémination la plus large possible des ressources et outils au service de toute la communauté scientifique, en cohérence avec la déclaration de Berlin, dont le CNRS est signataire.

Charte de qualité du CNRTL

Le CNRTL souhaite fournir un service de référence conforme à une charte de qualité permettant à terme d’associer à véritable label aux ressources ayant bénéficié d’un soutien de la part du centre. Cette charte, qui reposera sur les principes de pérennisation, de normalisation et d’accessibilité, guidera le choix des priorités d’action pour le centre. Elle servira aussi de base pour l’établissement de relations étroites de travail avec les initiatives similaires aux niveaux européen et international.

Pôles de compétence du CNRTL

Le CNRTL se construit autour de quatre pôles de compétence :

  • Corpus et données textuelles, annotés ou non
  • Dictionnaires encyclopédiques et linguistiques (anciens et modernes)
  • Lexiques phonétiques, morphologiques, syntaxiques, sémantiques,
  • Outils linguistiques : étiqueteurs, analyseurs, aligneurs, concordanciers, outils d’annotation

Ces compétences se situent dans le prolongement des activités scientifiques et éditoriales de l’ATILF. Par ailleurs, des laboratoires partenaires apportent leur expertise dans les domaines de la gestion de corpus, de lexiques, de l’édition électronique, de la normalisation et du développement d’outils.

Appel à contributions

Cet appel à contributions s’adresse à des laboratoires souhaitant pérenniser et diffuser des fonds linguistiques significatifs et/ou des outils existants, en accord avec la charte de qualité du CNRTL (pas de création de nouvelles ressources ou outils). Concrètement, la diffusion de ces fonds peut se faire selon trois modes, correspondants à des niveaux d’intervention différents du CNRTL :

  • Ressources gérées à l’extérieur : identification par un portail de métadonnées maintenu au sein du CNRTL
  • Archivage et dissémination de ressources « en l’état » au CNRTL,
  • Accompagnement éditorial et technique sur des ressources nécessitant un travail de préparation, par exemple :
  • identification des métadonnées et aide à la documentation
  • normalisation du codage des caractères
  • identification de la macro-structure des textes ou lexiques
  • normalisation d’annotations linguistiques existants
  • normalisation des entrées/sorties pour les outils

En fonctions des propositions à contributions, les comités scientifiques et techniques du CNRTL décident, en concertation avec les laboratoires, de la solution la plus adaptée ainsi que de la forme du soutien. Celui-ci peut se concrétiser, par exemple, par un suivi éditorial ou/et technique au CNRTL ou sur place, en lien avec un scientifique « relais ». Le CNRTL peut également financer des stagiaires dans les laboratoires et assurer des formations.

Mode de soumission des propositions

Cet appel à propositions est ouvert, les soumissions peuvent se faire au gré des laboratoires sans contrainte de date en remplissant le formulaire en ligne.

Pour tous renseignements s’adresser à :

Jean-Marie Pierrel, Responsable du CNRTL-CNRS
ATILF
44, avenue de la Libération
BP 30687
54063 Nancy cedex
tel : 03 83 96 86 85
fax : 03 83 97 24 56

Références

La déclaration de Berlin sur l'accès ouvert au savoir dans le domaine des Sciences et des Sciences Humaines : http://www.zim.mpg.de/openaccess-berlin/berlindeclaration.html

Site français de référence sur l’open access : http://openaccess.inist.fr/

Initiatives de normalisation :
W3C (World Wide Web consortium – www.w3.org) : fournit les normes de bases (XML, XSLT, SOAP) pour la représentation et transmission de données sur la toile ;
TEI (Text Encoding Initiative – www.tei-c.org) : propose un cadre de représentation de ressources textuelles exprimés sous la forme de structures XML ;
Comité TC 37/SC 4 de l’ISO (Organisation Internationale de Normalisation – www.tc37sc4.org) : définit des normes pour la représentation et l’annotation de ressources linguistiques.


Projets internationaux de référence
IMDI (Isle Metadata Initiative) : décrit un jeu de méta-données d’identification et de gestion de ressources linguistiques
OLAC (Open Language Archive Community) : offre un jeu minimal de méta-données et une interface permettant de référencer la description de ressources linguistiques