P. 1
01-Traitement de La Parole 2004-03-10

01-Traitement de La Parole 2004-03-10

|Views: 4|Likes:
Published by lythophuc

More info:

Published by: lythophuc on Apr 22, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

03/08/2015

pdf

text

original

TRAITEMENT DE LA PAROLE

Dr. Andrzej Drygajlo andrzej.drygajlo@epfl.ch ELE 233 Groupe de Traitement de la Parole et de Biométrie (GTPB)
Institut de Traitement des Signaux (ITS) SECTION D’ELECTRICITE (SE) EPFL IDIAP, Martigny Lausanne 2003

InterSpeech - Eurospeech 2003

• 8th European Conference on
Speech Communication and Technology • Organizer: International Speech Communication Association (ISCA) • 1110 registered participants from 47 countries

Knowledge Navigator

Implications technologiques
• Integration du téléphone
– Mains libres/micro HiFi – Majordome d’accueil

• Synthèse
– Vocabulaire illimité – Intonation naturelle – Synthèse à partir de

vocal – Vidéoconférence

concepts

• Codage de la parole
– Débit/coût/qualité – Standardisation

• Reconnaissance,
compréhension
– Vocabulaire illimité – Système indépendant

du locuteur

Speech/Music Discrimination and Recognition dynamism Speech Music/ other sounds entropy .

CRAZY JOE .

02 – Robotics Exhibition Bumpers .Interactive Tour-Guide Robot Face Loud speakers Microphone array Buttons Mobile robot RoboX SICK laser scanner EXPO.

Pourquoi? .

Quelle est votre définition de la parole? • Moyen de communication par excellence. . J’espere que ça sera plus clair après ce cours. C’est un bruit qui a un sens. • Information qui est véhiculée par les ondes • • • • sonores. C’est le vecteur d’information qui différencie l’homme de l’animal. Je ne sais pas en français. Signal permettant la communication entre humains.

L’homme est-il fait pour parler? .

La parole • La parole – faculté de communiquer la pensée par un système de sons articulés émis par les organes de la phonation • La parole – expression verbale de la pensée Le Petit Robert 1993 .

La voix et le langage • La voix – ensemble de sons produits par le système phonatoire et articulatoire • Le langage – fonction d’expression de la pensée et de communication entre les hommes. mise en œuvre au moyen d’un système de signes vocaux (parole) et éventuellement de signes graphiques (écriture) qui constitue une langue .

Le cerveau et le langage • Le langage nous aide à structurer le monde en concepts et à reduire la complexité des structures abstraites afin de les appréhender: c’est la propriété de « compression cognitive » • La perception – fonction par laquelle l’esprit se représente les objets .

Act de communication parlée LOCUTEUR Idée Traitement cognitif Traitement linguistique et phonétique Traitement cognitif Traitement linguistique et phonétique Système auditif périphérique AUDITEUR Comprehénsion Traitement cognitif Traitement linguistique et phonétique Système auditif périphérique Production du son .

transmis et perçus par les sujets parlants • La phonétique – branche de la linguistique qui étudie les phonèmes • La phonologie – science qui étudie les phonèmes non en eux-mêmes.Phonétique et Phonologie • La phonétique s’intéresse à la manière dont les sons du langage sont produits. mais quant à leur fonction dans la langue .

Phonème • Phonème (notion phonologique) – unité minimale du langage porteuse d’une signification linguistique • Allophone – realisation d’un phonème (un phonème peut avoir plusieurs allophones) .

Phonèmes utilisés en français .

• Exemple: voix-parole . • Sa structure est complexe et variable dans le temps: – Tantôt périodique (plus exactement pseudo- périodique) pour les sons voisés. non stationnaire. continu.La parole • La parole est un signal réel (4D). – Tantôt impulsionnelle dans les phases explosives des sons occlusifs. – Tantôt aléatoire pour les sons fricatifs. d’énergie finie.

Speech information processing "tree" (Furui) Speech recognition /understanding Speech synthesis • Synthesis Synthesis by by rule rule • • Text-to-speech Text-to-speech • • Speaker-independent Speaker-independent • • Spontaneous Spontaneous speech speech • Speech coding coding Speech • Wide/narrow-band Wide/narrow-band • • Very-low-bit-rate Very-low-bit-rate • Robustness • Noise/distortion Noise/distortion • Human-machine interface • Ergonomics Ergonomics • • Subjective/objective Subjective/objective evaluation evaluation • Database Individuality • Speaker Speaker recognition recognition • • Speaker Speaker adaptation/normalization adaptation/normalization • • Voice Voice conversion conversion • Feature extraction eec Database (dynamics) h Ar an Signa n tif al o M i t l pro p e y n c ici r e cessin y o e s i g p m t o h i l c c a o s g e u e h s or lI c d c Sp i o m t Psy r e y/ nt p yst ne s l h Ac ell o e e c v h e a r ou e e p ig rn N p c stic S i e t y i s n g n n o s ce g ou atio siol l c y u h c A P rti Sp .

Communication parlée homme-machine Speech Output Speech Synthesis Language Generation Multimodal Interface Dialogue System Database Speech Input Speech Recognition Speaker Recognition Language Recognition Language Understanding .

Invention du téléphone L’émetteur à liquide de Bell L’émetteur à induction de Bell .

0110-05 Voice portal environment PSTN Internet VoIP Voice Traffic Content Content servers .

UMTS • UMTS – Universal Mobile Telecommunications System • Le téléphone mobile de la 3e génération • Seules les villes profiteront de l’UMTS .

MIT wearable computing people .

Traitement automatique de la parole .

les étudiants seront capables d’appliquer les principales méthodes de traitement numérique du signal pour l’analyse. . la synthèse et la reconnaissance de la parole.Objectifs A la fin du cours. la compression.

PPUR. “Traitement de la parole”. Drygajlo. 2003 • R. H. Bourlard. Hancq. H. Leich. Lausanne. T. Dutoit. “Traitement de la parole”. Lausanne 2000. Boite. . EPFL.Bibliographie • A. J.

N. “Discrete-Time Speech Signal Processing: Principles and Practice”. Upper Saddle River. Gold. • X.-W. “Speech and Audio Signal Processing”. 2002. Morgan. A. 2000 • T. Acero. Quatieri. H. New York. . John Wiley and Sons.Bibliographie • B. Huang. Prentice Hall PTR. Prentice Hall PTR. Hon. 2001. Upper Saddle River. “Spoken Language Processing”.

Contenu • • • • • • • Production et perception de la parole Analyse et modélisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthèse de la parole Compression et codage de la parole Communication vocale homme-machine .

Production et perception de la parole • Aperçu anatomique • Mécanisme de la phonation • Phonétique articulatoire • Acoustique de la phonation • Mécanisme de l’audition • Psychoacoustique – Masquage – Bandes critiques .

Modélisation de la parole .

Analyse et modélisation de la parole • • • • • • • • Représentation numérique du signal vocal Analyse temporelle Analyse spectrale Modélisation spectro-temporelle et spectrogrammes Analyse homomorphique Modélisation basée sur la prédiction linéaire Estimation des formants Estimation de la période du fondamental .

Spectrogramme d’enveloppe .

Reconnaissance de la parole • Difficultés • Comparaison dynamique (DTW) • Méthodes statistiques – Modèles de Markov cachés (HMM) – Algorithmes de Baum-Welch et de Viterbi – Réseaux de neurones artificiels (ANN) • Reconnaissance: – de mots isolés – de mots connectés – de la parole continue .

0103-19 Quantification vectorielle (VQ) Enveloppes spectrales Dictionnaire .

Gaussian Mixture Model (GMM)  v1 (1)   v (2)   1   •     •    v1 ( D)    v2 (1)   vT (1)   v (2)   v (2)   2   T   •  • • •  •       •   •     v2 ( D)    vT ( D)   Vecteurs acoustiques d’entraînement Histogrammes Paramètre 1 Paramètre 2 GMM Paramètre D Distance = Score = vraisemblance (parole | modèle) .

Reconnaissance du locuteur • • • • Variabilité intra.et inter-locuteur Vérification et identification du locuteur Méthodes déterministes et statistiques Méthodes dépendantes du texte – Comparaison dynamique (DTW) – Modèles de Markov cachés (HMM) • Méthodes indépendantes du texte – Quantification vectorielle (VQ) – Modèles à mélanges de gaussiens (GMM) .

Identification biométrique Iris Empreinte digitale Rétine Visage Voix Signature .

Bases de données Affaire Trace Suspect Population Données Population potentielle Paramètres Paramètres Contrôles Base des données de contrôle (C) du suspect Références Base des données de la population potentielle (P) Base des données de référence (R) du suspect .

La Voix de BIN LADEN .

1958.Synthèse par diphones •The DAVO articulatory synthesizer developed by George Rosen at MIT.Synthèse de la parole • Prosodie • Techniques de synthèse – Synthèse directe – Synthèse à travers un modèle – Simulation du conduit vocal • Systèmes de synthèse – Synthèse de messages – Synthèse à partir du texte .Synthèse par règles . The English Alphabet Song! .Traitements linguistico-prosodiques .

Compression et codage de la parole • Enjeux actuels .MIC (PCM).Signal de parole en bande large • Méthodes temporelles (codeurs d’onde) .Signal de parole dans la bande téléphonique .Codage en sous-bandes • Méthodes paramétriques (vocodeurs) • Méthodes hybrides (CELP) • Normes internationales .Signal de parole en bande élargie . MICD (DPCM). MICDA (ADPCM) .

1 kHz • Bande élargie 50 Hz – 7 kHz Fréquence d’échantillonage – 16 kHz • Bande téléphonique 300 Hz – 3.4 kHz Fréquence d’échantillonage – 8 kHz .Représentation numérique du signal vocal • Bande large 20 Hz – 20 kHz Fréquence d’échantillonage – 44.

Quantification Bits: 16 8 4 3 2 1 .

Communication vocale homme-machine • • • • • Intégration de sous-systèmes Systèmes de dialogue Serveurs vocaux interactifs Systèmes de dictée Communication vocale homme-robot .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->