DEDE : un corpus annoté pour le traitement des DEscriptions DEfinies

Le corpus annoté est une sous-partie du corpus PAROLE (Corpus fourni par l'ATILF) et comprend 48 360 mots annotés au niveau morphosyntaxique, suivant le schéma d'annotation Multext. Il est composé d'une série d'articles du journal Le Monde datant de septembre 1987 et appartenant à toutes les rubriques.
L'annotation réalisée porte sur 4 910 descriptions définies. Le schéma est basé sur une classification fine qui contraste en particulier, avec les classifications très générales, parfois binaires, des corpus annotés existants tels que (Fraurud 90). Les catégories de base du schéma sont les suivantes : description autonome, description coréférentielle, description associative, description situationnelle, description non référentielle.


  • Description autonome : après résolution des anaphores ou ellipses éventuellement présentes dans les modifieurs du nom tête, le référent de la description définie est identifiable indépendamment du contexte linguistique et extra-linguistique.
  • Description coréférentielle : le référent de la description définie est identique à un référent introduit dans le contexte linguistique antérieur.
  • Description associative : le référent de la description définie est lié par une relation autre que l'identité à un référent introduit par un groupe nominal.
  • Description situationnelle : le référent de la description définie est lié par une relation autre que l'identité à un référent introduit dans le contexte linguistique ou extra-linguistique antérieur autrement que par un groupe nominal.
  • Description non référentielle : la description définie ne décrit pas de référent de discours mais introduit une prédication ou fait partie d'une expression figée (e.g., "faire la cour").

Ces 5 grands types sont en outre sous-types. Les sous-types utilises (20) sont definis dans le manuel d'annotation.
Le corpus a été annoté avec l'outil d'annotation MMAX , logiciel gratuit dans sa version d'essai. Il est au format XML. Pour visualiser le corpus, nous vous conseillons de télécharger MMAX.
La première version de DEDE ne comporte pas d'interface d'interrogation, mais nos efforts se portent dans ce sens. Par ailleurs, la totalité des chaînes de coréférence seront annotées dans un second temps.

Publications

Publications associées concernant directement DEDE :

  • Gardent C., Manuélian H. (2006), Création d'un corpus annoté pour le traitement des descriptions définies, à paraître dans la revue Traitement Automatique des Langues.

Publications associées concernant des versions antérieures ou partielles de DEDE :

  • Gardent C., Manuélian H., Kow E. (2003 a), Which Bridges for Bridging Definite descriptions, Proceedings of theWorkshop on Linguistically Interpreted Corpora - LINC'03, EACL 2003, Budapest, Hungary. (pdf ici)
  • Gardent C., Manuélian H., Striegnitz K., Amoia M. (2003 b), Generating Definite Descriptions, Non Incrementality, Inference, and Data, in Multidisciplinary Approaches to Language Production, T. Pechman and C. Habel (eds.). Walter de Gruyter, Berlin.
  • Manuélian H. (2004), Generating coreferential descriptions from a structured model of the context, LREC 2004 (International Conference on Language Resources and Evaluation), Lisbonne, Portugal, 25-30 Mai 2004.
  • Manuélian H. (2003 a), Une analyse des emplois du démonstratif en corpus, Actes de TALN 2003, Batz sur Mer, France. (pdf ici)
  • Manuélian H. (2003 b), Coreferential Uses of Definite and Demonstrative Descriptions in French : A Corpus Study, ESSLLI Student Session 2003. (pdf ici)
  • Manuélian H. (2003 c), Génération de descriptions définies et démonstratives, actes d'ADL 2003, Paris, France. (pdf ici)
  • Manuélian H. (2003 d), Descriptions définies et démonstratives : analyses de corpus pour la génération de texte, Thèse de Doctorat, Université de Nancy 2, France. (pdf ici)