ABOUT USING PROSODIC CUES FOR CONTINUOUS SPEECH RECOGNITION

The full postscript or pdf (249 pages) of my phd is available here (sorry for non French speaking prosodists, but my phd is written in French).

You may wish to listen to my audio stimuli here.

Abstract

This work aims at using suprasegmental prosodic cues for continuous speech recognition, especially exploiting recurring accents closing right headed intonation groups in French.

We have first designed a French accentuation and intonation set of marks with the help of J. Vaissière (Paris III Professor in Phonetics), and have applied it to a monospeaker corpus. We have then used a connexionist classifier and CART classifier to automatically reproduce marks given by experts from prior acoustic cues on the syllable and surrounding context: duration, acoustic energy, fundamental frequency. A 85% accuracy is achieved on accents prediction and strong correlation between primary accent and syllabic duration prominence is unveiled. However, accents inside breath groups only give a 74% accuracy and remain a difficulty.

In a second step we have used a delexicalization method to compare human skills against the classifiers' skills on the same kind of task. The sentences, the prosody of which is to be analyzed by listeners, are reiterated thanks to the MBROLA speech synthesizer, using a phonemic transformation to mask semantic cues, according to a new paradigm called Prosodic Karaoke. Listeners select prosodic groups with an amazing accuracy, although carefully, since only few accents internal to breath groups are detected, which confirms the difficulties encountered by classifiers. The method offers many applications to study the perception of prosody, and we conclude that in future studies, primary accents on the border of a breath group should be systematically placed in a separate class.

speech recognition, french, prosody, accent, perception, speech synthesis

Résumé

Ce travail a pour but d'utiliser des indices acoustiques suprasegmentaux en reconnaissance de la parole continue, en exploitant notamment la régularité des accents venant conclure les groupes intonatifs en français.

Nous avons d'abord mis au point avec J. Vaissière (professeur à Paris III) des conventions de marquage accentuel et intonatif du français que nous avons appliquées à un corpus monolocuteur. Pour reproduire automatiquement le marquage de l'expert, nous avons ensuite utilisé un classificateur connexioniste, puis un classificateur par arbre de décision, utilisant des indices acoustiques sur la syllabe et son contexte immédiat: durée, énergie acoustique, valeur de la fréquence fondamentale. Les accents sont prédits avec une précision de 85% et on observe la forte corrélation de l'accent primaire et de l'émergence de la durée syllabique. Les indices d'énergie ne sont utilisés que pour la caractérisation de l'accent secondaire. Avec une précision de 74%, la prédiction des accents internes au groupe de souffle reste la principale difficulté.

Dans un second temps nous avons utilisé une méthode de délexicalisation pour comparer les performances humaines à celles des classificateurs sur le même type de tâche. Les énoncés, dont on veut faire analyser l'accentuation par des auditeurs, sont réitérés à l'aide du synthétiseur vocal MBROLA, après modification des sons élémentaires pour masquer le sens, selon un paradigme original appelé Karaoke Prosodique. Les auditeurs sélectionnent les groupes prosodiques avec une précision étonnante, mais aussi avec prudence puisque le nombre d'accents internes détectés au sein des groupes de souffle est faible, confirmant ainsi les difficultés rencontrées avec les classificateurs. La méthode offre de nombreuses applications pour l'étude de la perception de la prosodie, et nous concluons que dans les études futures, les accents primaires au contact des prises de souffle devront systématiquement être placés dans des classes séparées.

reconnaissance de la parole, français, prosodie, accentuation, perception, synthèse vocale