Welcome to Scribd!

Speech Recognition Signal Processing

Uploaded by

0% found this document useful (0 votes)

17 views15 pages

Speech is converted from analog to digital using an analog-to-digital converter that samples the sound multiple times per second. Speech recognition systems initially used time domain features but now use frequency domain analysis by splitting the waveform into short frames, windowing them, and performing FFT or mel cepstral analysis to distinguish phonetic types while being invariant to other factors. The frequency domain allows distinguishing sounds like "beat" versus "bat" based on their spectragrams.

Original Description:

Original Title

03_sigpro.pdf

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

17 views15 pages

Speech Recognition Signal Processing

Uploaded by

duy quang nguyễn

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 15

Search inside document

Speech Processing 15-492/18-492

Speech Recognition
Signal Processing
Analog to Digital

Speech (sound) is analog

Computers are digital
 We need to convert
Sample from A-D converter
N times a second
How many times a second?
Goals of Signal Processing

Distinguish between phonetic types

Be invariant to channel/room conditions
Be invariant to speaker characteristics
Computational efficiency
Time vs Frequency Domain

Human ear distinguishes frequencies

Initial ASR used time domain features
Power
Zero crossings (sort of frequency)
Source Filter Model

Pitch
Pulse Voiced

Filter

Noise Vocal Track

Unvoiced Model
Time domain Signal
Waveform Representation
Speech Spectragram
/iy/ vs /ae/

• “beat” /b iy t/ and “bat” /b ae t/

Frequency Domain
• “pencils” /p eh n s ih l z/
Frequency Domain

• “beats pits” / b iy t s p ih t s /
Speech Analysis
Standard Parameterization

Split waveform into “frames”

Advance every 10ms
Size around 25ms (overlapping frames)
Window them
Perform FFT/Mel Cepstral analysis
Find Deltas (difference from previous)
Find Delta Deltas (difference in delta)
Summary

Timedomain vs Frequency domain

Parameterization of speech
Frequency domain
Short term FFTs
FFT vs MEL Cepstrum

Newnes Radio and Electronics Engineer's Pocket Book
From Everand
Newnes Radio and Electronics Engineer's Pocket Book
Keith Brindley
No ratings yet
Introduction To Digital Audio
Document15 pages
Introduction To Digital Audio
Jonah Grace Mejas
No ratings yet
Sound Design and Mixing in Reason
From Everand
Sound Design and Mixing in Reason
Andrew Eisele
Rating: 2 out of 5 stars
2/5 (1)
Digital Audio Coding - Dr. T. Collins: Standard MIDI Files Perceptual Audio Coding MPEG-1 Layers 1, 2 & 3 MPEG-4
Document23 pages
Digital Audio Coding - Dr. T. Collins: Standard MIDI Files Perceptual Audio Coding MPEG-1 Layers 1, 2 & 3 MPEG-4
Antony Raj
No ratings yet
Sound and Digital Audio
Document27 pages
Sound and Digital Audio
gabs2
No ratings yet
Design of VA - and PA System - E5
Document44 pages
Design of VA - and PA System - E5
christianxla
No ratings yet
Adaptive Multi Rate Coder Using ACLP
Document45 pages
Adaptive Multi Rate Coder Using ACLP
shah_mayana
No ratings yet
Lesson02 PDF
Document23 pages
Lesson02 PDF
Mehnaz Baloch
100% (1)
Speech Coders For Wireless Communication
Document53 pages
Speech Coders For Wireless Communication
Vikas Ps
No ratings yet
The Diagram Outlines The Key Steps Involved in Co
Document20 pages
The Diagram Outlines The Key Steps Involved in Co
Taqwa Elsayed
No ratings yet
Audio/Speech Signal Processing: An Overview
Document18 pages
Audio/Speech Signal Processing: An Overview
paul
No ratings yet
Sound
Document21 pages
Sound
Rushil
No ratings yet
Multimedia Digital Audio
Document7 pages
Multimedia Digital Audio
Mohammed Abdel Khaleq Dwikat
No ratings yet
Introduction To Multimedia. Analog-Digital Representation
Document29 pages
Introduction To Multimedia. Analog-Digital Representation
raghudathesh
100% (1)
Mavlas Slides
Document554 pages
Mavlas Slides
itamar amrani
No ratings yet
Encoding of Waveforms To Compress Information
Document14 pages
Encoding of Waveforms To Compress Information
Jatin Gaur
No ratings yet
Speech Enhancement and Coding
Document23 pages
Speech Enhancement and Coding
KISEUNG LEE
No ratings yet
Text-to-Speech Synthesis: Chilin Shih UIUC EALC/Linguistics
Document53 pages
Text-to-Speech Synthesis: Chilin Shih UIUC EALC/Linguistics
QWERTY
100% (1)
DSP Lab Assignment 4
Document9 pages
DSP Lab Assignment 4
wafa hop
No ratings yet
Chapter Two: Multimedia Basics and Representation Multimedia Basics and Representation
Document48 pages
Chapter Two: Multimedia Basics and Representation Multimedia Basics and Representation
zereabrham mulugeta
No ratings yet
Voice Morphing 101113123852 Phpapp01 121221072434 Phpapp01
Document24 pages
Voice Morphing 101113123852 Phpapp01 121221072434 Phpapp01
little bunny foo foo
100% (1)
ch4 - Acquiring Audio Data PDF
Document18 pages
ch4 - Acquiring Audio Data PDF
Beulah Christudas
No ratings yet
LS On Digital Signal Processing
Document558 pages
LS On Digital Signal Processing
Mayuri Prajapati
No ratings yet
Mesleki Yeterlilik
Document106 pages
Mesleki Yeterlilik
anancı31
No ratings yet
Introduction To Sampling
Document24 pages
Introduction To Sampling
Fabio Luigi Ruggiero
No ratings yet
Introduction To Digital Speech Processing
Document42 pages
Introduction To Digital Speech Processing
AthulPai
No ratings yet
Note 01 N
Document49 pages
Note 01 N
Lilililil
No ratings yet
Human Speech Producing Organs: 2.4 Kbps
Document108 pages
Human Speech Producing Organs: 2.4 Kbps
dfbbvcx
No ratings yet
Unit Iii Audio Fundamental and Representaion
Document24 pages
Unit Iii Audio Fundamental and Representaion
Roohee Kapoor
No ratings yet
Lectures 7-8 Winter 2012
Document73 pages
Lectures 7-8 Winter 2012
wellhellothere123
No ratings yet
Digital Signal Processing: Course
Document47 pages
Digital Signal Processing: Course
YasashiRikai
No ratings yet
Multimedia Technology CH 5
Document9 pages
Multimedia Technology CH 5
Syed Fateh Ali Shah
No ratings yet
CS 224S/LING 281 Speech Recognition, Synthesis, and Dialogue
Document78 pages
CS 224S/LING 281 Speech Recognition, Synthesis, and Dialogue
Bolo BT
No ratings yet
Audio: History - Sound Definition - Digital Audio - Codecs - Trends - Softwares
Document48 pages
Audio: History - Sound Definition - Digital Audio - Codecs - Trends - Softwares
69blacksnake69
No ratings yet
Speech Coding Techniques
Document38 pages
Speech Coding Techniques
Jacob Jayaseelan
No ratings yet
Digital Speech Processing
Document18 pages
Digital Speech Processing
MohamedKadry
No ratings yet
014A058 Uttam Shrestha Unit.1.1.3
Document8 pages
014A058 Uttam Shrestha Unit.1.1.3
Uttam Shrestha
No ratings yet
Audio Compression
Document53 pages
Audio Compression
Geek Anant
No ratings yet
Widyasmoro pengantarSinyalSistem2017
Document43 pages
Widyasmoro pengantarSinyalSistem2017
bram
No ratings yet
Unit-Ii Itc
Document42 pages
Unit-Ii Itc
Abhishek Bose
No ratings yet
Multimedia - LECTURE 3
Document37 pages
Multimedia - LECTURE 3
Hemed hafidh
No ratings yet
Lecture 7 - Automatic Speech Recognition
Document58 pages
Lecture 7 - Automatic Speech Recognition
Rhona Hazel
No ratings yet
Chapter6 - SPEECH SIGNAL PROCESSING
Document54 pages
Chapter6 - SPEECH SIGNAL PROCESSING
Quyền Phan
No ratings yet
Voice Over IP
Document53 pages
Voice Over IP
Gil Hale
No ratings yet
Bab 7 Multimedia Kompresi Audio
Document52 pages
Bab 7 Multimedia Kompresi Audio
Elektro Force
No ratings yet
Music Technology: Digitalization of Sound
Document4 pages
Music Technology: Digitalization of Sound
faheem
No ratings yet
Introducing The CDP Sound Transformation Programs: Release 7 (MAC / PC)
Document10 pages
Introducing The CDP Sound Transformation Programs: Release 7 (MAC / PC)
Fabian Gonzalez Ramirez
No ratings yet
4 Voice - PCM
Document33 pages
4 Voice - PCM
Christyan Leon
No ratings yet
4 Voice - PCM
Document33 pages
4 Voice - PCM
Christyan Leon
No ratings yet
04 Audio
Document30 pages
04 Audio
hhhhhcccc25
No ratings yet
Digital Speech Processing
Document46 pages
Digital Speech Processing
prabha
No ratings yet
Digitizing and Packetizing Voice: Describe Cisco Voip Implementations
Document24 pages
Digitizing and Packetizing Voice: Describe Cisco Voip Implementations
rajkumarlodh
No ratings yet
1.1.3 Sound
Document10 pages
1.1.3 Sound
Gamer Man
No ratings yet
Sounds' Final Slide - PPSX
Document98 pages
Sounds' Final Slide - PPSX
SHUBHI SHRIVASTAVA
No ratings yet
Sound SamplingV4
Document20 pages
Sound SamplingV4
alanchenyin
No ratings yet
Digital Audio - Nuts and Bolts
Document52 pages
Digital Audio - Nuts and Bolts
Athira Kutty
No ratings yet
Delay Based Audio Effects Using The TMS320C6713
Document51 pages
Delay Based Audio Effects Using The TMS320C6713
majmax3
No ratings yet
Chapter 6
Document20 pages
Chapter 6
ibrahin mahamed
No ratings yet
Unit 6 - VOIP
Document121 pages
Unit 6 - VOIP
Riya Agrawal
No ratings yet
1.1.3 Sound
Document6 pages
1.1.3 Sound
Sarah Hussain
No ratings yet