Traitement du signal parole

Diplômes intégrant cet élément pédagogique :

Descriptif

L’objectif de ce cours est de présenter les principaux traitements du signal de parole qui sont utilisés en Traitement Automatique de la Parole et de faire le parallèle avec les connaissances que l’on a du traitement cognitif des signaux de parole chez l’humain.

 

Nous abordons ainsi les sonagrammes, les mesures de prosodie, l’analyse de Fourier, les formants et la prédiction linéaire utilisé en soulignant s’appuyant sur la théorie Source-Filtre de Fant (1960). Nous présentons également les coefficients cepstraux, qui permettent également de séparer la source et le filtre.

L’impact des connaissances sur le système parceptif est ensuite abordé, avec la transformation non-linéaires des fréquences par le système auditif avec le calcul des coefficients MFCC, et les F-Banks largement utilisés en TAL.

 

Les nombreuses théories de la perception (théorie quantique, perceptual magnet, théorie des exemplaires, théorie motrice) sont présentées et plusieurs expériences sont décrites et étudiées pour évoquer la catégorisation des sons de parole, ou comment passer du signal de parole avec son extrême variabilité à une catégorie (le plus souvent phonémique). Le rôle de la vision et les études en acquisition du langage sont également abordés comme outils permettant d’illustrer les limites des différentes théories sur la perception des sons du langage humain. Ces théories envisagent des représentations des sons de parole bien différentes et nous permettent de présenter les modèles de catégorisation historiques en transcription de la parole (ASR). Nous présentons ainsi l’algorithme du Dynamic Time Warping pour la reconnaissance des mots isolés, le perceptron, la classification gaussienne et les mixtures de gaussiennes. 

Connaître les bases du traitement du signal nécessaire à la compréhension des outils largement utilisés en TAL (transformée de Fourier, coefficients cepstraux, coefficients LPC, coefficients MFCC, F-Banks…) .

Être capables de les mettre en œuvre sur des signaux de parole.

Connaître les sources de variations des signaux de parole.

Connaître les principales théories de la perception de la parole et leurs limites.

Connaître les principaux modèles de catégorisations des sons de parole

Compétences visées

RNCP34217BC02

Développement et intégration de savoirs hautement spécialisés :

- Mobiliser des savoirs hautement spécialisés, dont certains sont à l’avant-garde du savoir dans un domaine de travail ou d’études, comme base d’une pensée originale 

- Développer une conscience critique des savoirs dans un domaine et/ou à l’interface de plusieurs domaines

- Résoudre des problèmes pour développer de nouveaux savoirs et de nouvelles procédures et intégrer les savoirs de différents domaines 

Bibliographie

Calliope. (1989). La parole et son traitement automatique. Paris, France: Masson.

 

Haton, J.-P., Cerisara, C., Fohr, D., Laprie, Y., & Smaïli, K. (2006). Reconnaissance automatique de la parole. Dunod.

 

Noël Nguyen. La perception de la parole. Nguyen, Noël; Wauquier, Sophie; Durand, Jacques. Phonologie et phonétique, Hermès, pp.425-447, 2005, Cognition et traitement de l'information. ⟨hal-00142953⟩

 

Nguyen, N., & Adda-Decker, M. (2013). Méthodes et outils pour l’analyse phonétique des grands corpus oraux. Paris: Lavoisier.

Modalités de contrôle des connaissances

Session 1 ou session unique - Contrôle des connaissances

NatureTypeNature d'évaluationDurée (min)Coeff.
EC Ecrit et TP03/100

Session 2 - Contrôle des connaissances

NatureTypeNature d'évaluationDurée (min)Coeff.
EC Oral03/100

Informations complémentaires

Méthode d'enseignement : En présence
Lieu(x) : Grenoble
Langue(s) : Français