TCOF
Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux constitués dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources. Cette mise à disposition sera progressive, au fur et à mesure du traitement des données. Le corpus mis à disposition comporte deux grandes catégories : des enregistrements de corpus d'interactions adultes / enfants et des enregistrements d'interactions entre adultes. Les enregistrements sont de taille diverse: de 5' à 45' ou plus. Il s'agit, en l'absence de corpus de référence du français parlé, de faciliter l'accès à des données qui restent encore rares, en particulier en ce qui concerne les 'interactions adulte / enfant, et d'enrichir les données existantes mises à disposition au travers d'un certain nombre de sites (PFC, CLAPI, CFPP, CHILDES, etc.).
| Origine de la ressource | ATILF |
|---|---|
| Nature des données | Corpus oraux (transcriptions textes + fichiers sons) |
| Conditions d'utilisation | Les utilisateurs de la plateforme auront pour principe déontologique de signaler toutes modifications réalisées sur les corpus originaux. N’hésitez pas à contacter les responsables pour les informer des erreurs que vous relèveriez dans les transcriptions. Les corpus du projet TCOF sont utilisables sous license Creative Commons |
Fiche technique
| Version | 1.0 |
|---|---|
| Responsables scientifiques | Virginie André - Christophe Benzitoun - Emmanuelle Canut - Jeanne-Marie Debaisieux - Evelyne Jacquey |
| Responsables techniques | Etienne Petitjean - Bertrand Gaiffe |
| Codage des métadonnées et des transcriptions | Isabelle Clément - Stéphanie Houin - Youma Sow |
| Contenu | 25 fichiers pour le corpus adultes et 88 fichiers pour le corpus enfants |
| Format | Transcriber (transcriptions) + XML (métadonnées) + WAV (fichiers sons) |
| Codage des caractères | ISO-8859-1 |
| Taille | ~13Go |
Echantillon
<Turn speaker="spk1" startTime="3.642" endTime="5.054"> <Sync time="3.642"/> c'est qui ? </Turn> <Turn speaker="spk2" startTime="5.054" endTime="11.541"> <Sync time="5.054"/> euh des petits <Event desc="pti" type="pronounce" extent="previous"/> nounours + <Sync time="8.623"/> encore des petits <Event desc="pti" type="pronounce" extent="previous"/> nou- <Sync time="9.499"/> ça c'est une panthère <Event desc="pa~dER" type="pronounce" extent="previous"/> noire <Event desc="nwaRt" type="pronounce" extent="previous"/> oh </Turn> <Turn speaker="spk1 spk2" startTime="11.541" endTime="12.119"> <Sync time="11.541"/> <Who nb="1"/> ah bon ? <Who nb="2"/> chez ma nounou </Turn>
Accueil