Corpus écrits et transcrits

Diplômes intégrant cet élément pédagogique :

Descriptif

Les recherches en linguistique s’appuient maintenant de façon incontournable sur des outils de traitement de corpus – et les applications du TAL sont également très consommatrices de corpus langagiers finement annotés.

Après avoir présenté différentes utilisations des corpus langagiers dans une double perspective, à la fois scientifique (linguistique outillée) et industrielle (IDL), le cours aborde des aspects méthodologiques liés à la constitution et à l'exploitation de ces ressources.

Objectifs 

On montrera dans un premier temps l'intérêt de la démarche de la linguistique de corpus, et on donnera un aperçu de l'usage des corpus en Traitement automatique des langues (TAL). Les notions suivantes seront abordées :

- typologie des corpus écrits et transcrits

- principes de constitution des corpus, métadonnées et annotations

- fonctionnalités des outils d'exploration de corpus

- aspects techniques liés à la constitution : encodage des caractères, formats et normes d'encodage (XML-TEI)

- recherche de patterns et requêtes complexes (expressions régulières, xpath)

- données textométriques de base : fréquences, spécificités, mesures d'association.

Compétences visées

Référentiel des compétences RNCP :

- Identifier les usages numériques et les impacts de leur évolution sur le ou les domaines concernés par la mention 

- Se servir de façon autonome des outils numériques avancés pour   un ou plusieurs métiers ou secteurs de recherche du domaine

A l'issue du cours, les étudiant.e.s seront capables de compiler un corpus au format XML TEI comportant les métadonnées nécessaires et des annotations simples, d'ouvrir et de manipuler un corpus avec un logiciel adapté, d'utiliser des expressions régulières pour effectuer des opérations de recherche et/ou de nettoyage, d'élaborer des requêtes pour rechercher des patterns, d'interpréter les données textométriques de base (fréquences, spécificités, mesures d'association).

Bibliographie

Néé, E. (2018, sous la dir. de) Méthodes et outils pour l’analyse des discours, PUR.

Poudat, C., Landragin Frédéric (2017) Explorer un corpus textuel. Méthodes, pratiques, outils, Bruxelles, De Boeck.

Supports élaborés dans le cadre du MOOC Linguistique de corpus :

https://www.fun-mooc.fr/fr/cours/introduction-a-la-linguistique-de-corpus/

Informations complémentaires

Lieu(x) : Grenoble
Langue(s) : Français