DEDE : un corpus annoté pour le traitement des DEscriptions DEfinies

Le corpus annoté est une sous-partie du corpus PAROLE (Corpus fourni par l'ATILF) et comprend 48 360 mots annotés au niveau morphosyntaxique, suivant le schéma d'annotation Multext. Il est composé d'une série d'articles du journal Le Monde datant de septembre 1987 et appartenant à toutes les rubriques.
L'annotation réalisée porte sur 4 910 descriptions définies. Le schéma est basé sur une classification fine qui contraste en particulier, avec les classifications très générales, parfois binaires, des corpus annotés existants tels que (Fraurud 90). Les catégories de base du schéma sont les suivantes : description autonome, description coréférentielle, description associative, description situationnelle, description non référentielle.


Origine de la ressource LORIA (CNRS INRIA - Nancy Université) - Université Cergy Pontoise
Nature des données Corpus annoté
Origine des données Corpus PAROLE - ATILF
En savoir plus

Fiche technique

Version 1.0
Conception Claire Gardent - Hélène Manuélian
Réalisations techniques Eric Kow
Responsable scientifique Claire Gardent (LORIA) - Hélène Manuélian (U. Cergy Pontoise)
Responsable informatique Etienne Petitjean
Contenu 48 360 mots annotés au niveau morpho-syntaxique (schéma Multext)
Annotation portant sur 4 910 descriptions définies
Taille 740 Ko