You are on page 1of 32

15/04/2013

Ket-noi.com chia se

Nội dung

XỬ LÝ TIẾNG NÓI 1. Một số khái niệm cơ bản


2. Xử lý tín hiệu tiếng nói
Trịnh Văn Loan 3. Mã hoá tiếng nói
Đại học Bách khoa Hà Nội 4. Tổng hợp tiếng nói
5. Nhận dạng tiếng nói

1 3

Tài liệu tham khảo

∗ La parole et son traitement automatique


Calliope, Masson, 1989
∗ Traitement de la parole
Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987
∗ Fundamentals of Speech Signal Processing
Saito S., Nakata K. , Academic Press, 1985
∗ Digital Processing of Speech Signals
Lawrence R. Rabiner, Ronald W. Schafer, Prentice-Hall .1978
∗ Discrete-Time Processing of Speech Signals
John R. Deller, John G. Proakis, Hansen John H. L.. IEEE Press, 2000
∗ Tiếng Việt hiện đại (Ngữ âm, ngữ pháp, phong cách)
Nguyễn Hữu Quỳnh, Hà Nội, 1994
∗ Dẫn luận Ngôn ngữ học
Nguyễn Thiện Giáp, Đoàn Thiện Thuật , Nguyễn Minh Thuyết, Hà Nội, 1994

2 4

1
15/04/2013

1. Một số khái niệm cơ bản

∗ Xử lý thông tin chứa trong tín hiệu tiếng nói


nhằm truyền, lưu trữ tín hiệu này hoặc tổng
hợp, nhận dạng tiếng nói.

∗ Các nghiên cứu được tiến hành để xử lý tiếng


nói yêu cầu những hiểu biết trên nhiều lĩnh
vực ngày càng đa dạng: từ ngữ âm và ngôn
ngữ học cho đến xử lý tín hiệu...
5 7

Mục đích

∗ Mã hoá một cách có hiệu quả tín hiệu tiếng nói để


truyền và lưu trữ tiếng nói.
∗ Tổng hợp và nhận dạng tiếng nói tiến tới giao tiếp
người-máy bằng tiếng nói.
∗ Tất cả các ứng dụng của xử lý tiếng nói đều cần phải
dựa trên các kết quả của phân tích tiếng nói

6 8

2
15/04/2013

Một số khái niệm cơ bản Bộ máy phát âm

∗ Phân biệt tiếng nói và âm thanh


Tiếng nói được phân biệt với các âm thanh khác bởi
các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng
nói.
∗ Có 2 loại nguồn âm
∗ tuần hoàn (dây thanh rung)
∗ tạp âm (dây thanh không rung)

9 11

Bộ máy phát âm Bộ máy phát âm

NASAL CAVITY: Khoang mũi


SOFT PALATE: Vòm miệng mềm
EPIGLOTTIS: Nắp thanh quản
VOCAL FOLDS (CORDS): Dây thanh
OESOPHAGUS: Thực quản
TRACHEA: Khí quản
PHARYNX: Họng

10 12

3
15/04/2013

1. Mét sè kh¸i niÖm c¬ b¶n

Sơ đồ khối bộ máy phát âm Thanh môn

∗ Ở các vị trí hít, thở,phát âm, nói thì thào

13 15

Dây thanh trong một chu kỳ


Thanh môn
dao động

Thanh môn

Dây thanh

14 16

4
15/04/2013

Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói

∗ Dạng sóng theo thời gian ∗ Phổ tín


30
hiệu tiếng nói
20

10

Decibels
0

-10

-20

-30

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
17 Frequency
19 in Hz

File WAV Biểu diễn tín hiệu tiếng nói


∗ Spectrogram (Sonagram)

∗ Tần số lấy mẫu: 8kHz, F1= 11025 Hz, 2F1, 4F1 (16kHz,
10kHz)
∗ Số bit/mẫu: 8,16
∗ Mono, Stereo

18 20

5
15/04/2013

Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói

∗ Thu bằng micro khác loại

21 23

Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói

∗ Hai giọng khác nhau cho cùng một âm

22 24

6
15/04/2013

Tạo âm hữu thanh


Biểu diễn tín hiệu tiếng nói
Formant và antiformant
∗ Cùng người nói, cùng một âm

Tín hiệu nguồn hữu thanh Tín hiệu âm hữu thanh

Phổ của nguồn hữu thanh Phổ của âm hữu thanh

25 27

Năng lượng, tỷ lệ biến thiên qua giá trị không Tạo âm vô thanh
file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1
0.4
0.2
amplitude

0
-0.2
-0.4
Signal
-0.6
0 0.5 1 1.5 2 2.5 3 3.5
short-time energy

4 En

3
2 Tín hiệu nguồn vô thanh Tín hiệu âm vô thanh
1

0.5 1 1.5 2 2.5 3 3.5


short-time magnitude

15 Mn

10

0.5 1 1.5 2 2.5 3 3.5

80
zero crossing rate

ZC
60 Phổ của nguồn vô thanh
40

20

0 26 28
0.5 1 1.5 2 2.5 3 3.5
time in seconds

7
15/04/2013

Một số đặc điểm ngữ âm Một số đặc điểm ngữ âm


tiếng Việt tiếng Việt

∗ Đơn âm tiết ∗ Hệ thống


1 b bồng bềnh
âm vị: 22 phụ âm 12 tr trồng
2 p ốp ép 13 s sinh viên
∗ Có thanh điệu (6), biến đổi thanh điệu kèm theo biến
3 v vẩn vơ 14 r rừng
đổi nghĩa
4 ph phôi pha 15 ch chông
∗ Không biến đổi hình thái 5 m mơ màng 16 nh nhọc
6 đ đất đai 17 ng,ngh ngô nghê
7 t tin tưởng 18 c,k,q con,kẹt,qua
8 th thơ thẩn 19 kh khúc
9 d,gi duyên, giữ 20 g,gh gồ ghề
10 n nóng 21 h hả hê
29 11 l long lanh 31 22 x xa xôi

Một số đặc điểm ngữ âm Một số đặc điểm ngữ âm


tiếng Việt tiếng Việt
∗ Hệ thống âm vị: 14 nguyên âm (11 nguyên âm đơn, 3
nguyên âm đôi, 22 phụ âm)
1 i,y ý chí
∗ Phân loại nguyên âm theo độ nâng của lưỡi và chuyển
2 ê ê chề động của lưỡi
3 e e dè 1 ia,yê,ya,iê kia kìa, yêu Độ nâng
kiều, khuya, tiên cao trung bình thấp
4 a a ha (đọc ia, yê) Hàng
tiến
5 ă mắt trước i e e
2 ua,uô tua rua, luôn
6 ơ bơ phờ giữa ư ơ â a ă
(đọc ua)
7 â ân cần sau u ô o
3 ưa,ươ lưa thưa,
8 ư từ từ
(đọc ưa) lượt
9 ô ôtô
10 o co ro
11 u lù mù 30 32

8
15/04/2013

Một số đặc điểm ngữ âm Một số đặc điểm ngữ âm


tiếng Việt tiếng Việt

∗ Phân loại phụ âm theo tắc hay xát, hữu thanh hay vô
∗ Phân loại nguyên âm theo độ mở của miệng và thanh, mũi hóa
chuyển động của lưỡi
Vị trí cấu âm Đầu lưỡi
Hàng hàng sau không hàng sau Môi Răng Vòm miệng
Mặt lưỡi Cuối lưỡi Họng
hàng trước Phương thức cấu âm
Độ mở tròn môi tròn môi
Bật hơi th

hẹp i ia,yê,ya,iê ư ưa u ua
thanh p t tr ch c,k,qu
hơi hẹp ê ơ â ô Tắc
Ồn Không bật
hơi Hữu
hơi rộng e o thanh b đ
rộng a ă Vang mũi m n nh ng,ngh
Vô thanh ph x s kh h
Ồn
Xát Hữu thanh v d,gi r g
Vang bên l
33 35

Một số đặc điểm ngữ âm


Dạng sóng một số từ tiếng Việt
tiếng Việt

∗ Âm tắc: tiếng nổ, phát sinh do luồng khí từ phổi đi ra bị cản trở hoàn
toàn, phải phá vỡ sự cản trở đó để thoát ra.
∗ Âm xát: tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không
hoàn toàn (chỉ bị khó khăn), phải lách qua một khe hở nhỏ và trong khi
thoát ra như vậy phải cọ xát vào thành của bộ máy phát âm.
∗ Phụ âm bên: đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí, buộc phê bé
nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má mà ra ngoài
tạo nên tiếng xát nhẹ (l).
∗ Luồng không khí thoát ra ngoài bị cản trở, tạo nên tiếng xát hay tiếng
nổ, dạng tín hiệu không tuần hoàn gọi là tiếng động (ồn).
∗ Trong khi phát âm một số phụ âm, dây thanh cũng hoạt động đồng thời
tạo nên tiếng thanh.
∗ Phụ âm có tỉ lệ tiếng động lớn hơn gọi là phụ âm ồn.
∗ Phụ âm có tỉ lệ tiếng thanh lớn hơn gọi là phụ âm vang.

vẽ chè
34 36

9
15/04/2013

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms

0.5

0.4

0.3

0.2

trị tìm
0.1

Amplitude
0

-0.1

-0.2

-0.3

-0.4

-0.5
0 50 100 150 200 250 300 350 400 450 500
tám đánh Time in ms

37 39

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms
0.4

0.3

0.2

0.1

kệ lạ

Amplitude
0

-0.1

-0.2

-0.3

-0.4
khả
0 50 100 150 200 250 300 350 400 450
38 40
Time in ms

10
15/04/2013

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms

0.6
0.4

0.4

0.2

0.2

0
Amplitude

Amplitude
-0.2
-0.2

-0.4
-0.4

-0.6
-0.6

-0.8 -0.8
0 100 200 300 400 500 600
Time in ms
0 100 200 300 400 500 600
41 43 Time in ms

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
P H A I R .W A V , F s = 1 1 0 2 5 H z , 6 9 3 4 s a m p le s , T im e = 6 2 9 m s

0.6
N G H IR .W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p le s , T i m e = 6 0 8 m s

0 .3

0.4
0 .2

0 .1
0.2
Amplitude

Amplitude
0
-0 . 1

-0 . 2 -0 . 2

-0 . 3
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0
T im e in m s -0 . 4

-0 . 6

0 100 2 00 3 00 4 00 5 00 60 0
T im e in m s
42 44

11
15/04/2013

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms
TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms

0.2
0.4

0.15 0.3

0.2
0.1

0.1

0.05
0

Amplitude
Amplitude

0 -0.1

-0.2
-0.05

-0.3

-0.1
-0.4

-0.15 -0.5

-0.6
-0.2
0 50 100 150 200 250 300 350 400 450
0 50 100 150
45 200 250 300 350 400
47 Time in ms
Time in ms

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms
BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms
0.6 0.4

0.3

0.4
0.2

0.1
0.2

Amplitude
Amplitude

0 -0.1

-0.2

-0.2
-0.3

-0.4
-0.4

-0.5

-0.6 46 48
0 100 200 300 400 500 600 700
0 100 200 300 400 500 600 Time in ms
Time in ms

12
15/04/2013

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms

0.3

0.6

0.2

0.4

0.1

0.2
Amplitude

Amplitude
0

-0.1

-0.2

-0.2

-0.4
-0.3

0 100 200 300 49 400 500 600 700 800 0 50 100 150 51
200 250 300 350 400 450 500
Time in ms Time in ms

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms

LAJ.WAV, Fs = 11025Hz, 5442 samples, Time = 494ms

0.4

0.4

0.2
0.2

0
0
Amplitude

Amplitude
-0.2 -0.2

-0.4
-0.4

-0.6

-0.6

50 0 50 100 150 52
200 250 300 350 400 450
0 100 200 300 400 500 600 Time in ms
Time in ms

13
15/04/2013

Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms
TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms

0.6
0.4

0.3
0.4

0.2

0.2
0.1
Amplitude

Amplitude
0
0

-0.1

-0.2
-0.2

-0.3 -0.4

0 50 100 150 200 250 300 350


Time in ms
53 55
0 50 100 150 200 250 300 350 400 450 500
Time in ms

Mô hình tạo tiếng nói


Dạng sóng một số từ tiếng Việt
(Fant-1960)
SOOS.WAV, Fs = 11025Hz, 8888 samples, Time = 806ms u(n)
Lọc thông Tuyến âm Tải bức xạ
0.4
thấp G(z) V(z) R(z)
0.3
T0 x(n)

0.2

0.1
A
G( z ) = R ( z ) = C (1 − z −1 )
(1 + α z )(1 + β z −1 )
−1
Amplitude

-0.1

-0.2
B
-0.3
V ( z) = K

-0.4 ∏ (1 + b
k =1
1k z −1 + b2 k z −2 )
-0.5

54 56
0 100 200 300 400 500 600 700 800
Time in ms

14
15/04/2013

Mô hình toàn điểm cực (AR) Dải thông

σ Biên độ
T ( z ) = G ( z )V ( z ) R( z ) = 1
A( z )
1/ 2(−3dB)
∗ A(z): Hàm truyền đạt của bộ lọc đảo
Dải thông Bk
σ 2 K +1 p
T ( z) =
A( z )
A( z ) = 1 + ∑ ai z −i
i =1
A( z ) = ∑ ai z −i
i =0
a0 = 1

p
Fk Tần số
x( n) + ∑ ai x ( n − i) = σ u ( n) P = 2K+1
i =1

57 59

Mô hình ARMA
2. Xử lý tín hiệu tiếng nói
(Autoregressive Moving Average)

σ1 σ2 C(z) q Fast Fourier Transform


T (z) = + =σ C ( z ) = ∑ ci z -i c0 = 1 ∗ Phân tích phổ
A1 ( z ) A2 ( z ) A( z ) i=0
Bộ lọc Cửa sổ
FFT Log |.|
hiệu chỉnh Hamming

p q
x (n) + ∑ ai x (n − i ) = σ ∑ ci u (n − i )
i =1 i =0

∗ Bộ lọc hiệu chỉnh H(z) = 1 – az-1, a = 0,95..0,98


58 60

15
15/04/2013

Sơ đồ khối xử lý đồng hình


x(n)

Bộ lọc Cửa sổ
FFT Log |.|
hiệu chỉnh Hamming
N

FFT-1

sɵ (n)

frame <= 61N/2, >0 63

Xử lý đồng hình (homomorphic) Ví dụ

e(n)
h(n)
s(n)
c(n)
T0 T0

∗ s(n)=h(n)*e(n) S(ω) = H(ω).E(ω)


∗ log[S(ω)]= log[H(ω)]+ log[E(ω)]
F-1{log[S(ω)]} = F-1{log[H(ω)]} + F-1{log[E(ω)]}
F-1{log[S(ω)]} = sɵ (n)
F-1{log[H(ω)]} = hɵ ( n)
F-1{log[E(ω)]} = ɵ sɵ (n) = hɵ ( n) + eɵ (n) ⌢
e( n ) h(n)
62 64

16
15/04/2013

Tiên đoán tuyến tính (Linear


Một số phương pháp xác định F0
Prediction Coding)
p
x (n) + ∑ ai x( n − i ) = σ u (n)
i =1

∗ Mô hình AR ∗ Dựa vào hàm tự tương quan


p
xɵ (n) = −∑ aɵ i x( n − i ) ∗ Dựa vào hàm vi sai biên độ trung bình
i =1
Tiên đoán ∗ Dùng bộ lọc đảo và hàm tự tương quan
e(n) = x(n) − xɵ (n)
Sai số tiên đoán ∗ Xử lý đồng hình
E = ∑ e 2 (n )
n
Sai số bình phương toàn phần
∂E
Tối thiểu hóa sai số = 0, i = 1, 2,..., p
∂ aɵ i

65 67

Xác định tần số cơ bản Dựa vào hàm tự tương quan

∗ Tính hàm tự tương quan R(k) của tín hiệu tiếng nói
x(n)
N −1− k
∗ Giá trị F0 phụ thuộc vào giới tính và lứa tuổi
∗ Giọng nam: 80..250 Hz
R(k ) = ∑n=0
x(n) x(n + k ) k = 0,1,..., K
∗ Giọng nữ: 150..500 Hz Fs = 10 kHz, N = 300, K = 150.Tìm cực đại trong khoảng (0, K)

Tiền Xác định Đánh giá

Tín hiệu
xử lý Fo kết quả
tiếng nói

66 68

17
15/04/2013

Phương pháp tự tương quan có cải


Ví dụ
tiến

0.3
0.2

∗ Hạn chế, loại bỏ |x| < CL 0.1

x(n)
0
-0.1
-0.2

700 750 800 850 900 950 1000 1050 1100 1150
n
0.015

0.01

0.005

r(k)
0

-0.005

-0.01
0 50 100 150 200 250 300
k
0.2

0.15

D(k)
0.1

0.05

0
0 50 100 150 200 250 300
k

69 71

Dựa vào hàm vi sai biên độ trung bình Dùng bộ lọc đảo (SIFT - Simplified Inverse
(AMDF- Average Magnitude Difference Function) Filter Tracking)
N −1
D (k ) = ∑ x(n + m) − x(n + m − k ) k = 0,1,..., K 10kHz

m =0 Thông thấp Thông thấp 1-z-1 W(n) LPC(p=4)


1/ 2
N −1 N −1
1 1 
D(iP ) = 0, i = 0,1,... N ∑ u (n) ≤  ∑ 2
u (n)  4700Hz 900Hz
n =0 N n=0 
1/2
 1 N-1  A(z) Hàm tự tương quan
D(k ) = λ  ∑ [ x(n + m) − x(n + m − k )]2  HT/VT
 N m=0 
1/ 2
1  Đánh giá kết quả Nội suy Tìm cực đại
= λ  [2r (0) − 2r (k )] k = 0,1,..., K F0
N 
víi λ < 1 70 72

18
15/04/2013

Xử lý đồng hình Xử lý đồng hình

Tín hiệu
tiếng nói
Bộ lọc Cửa sổ FFT
hiệu chỉnh

log10|.| FFT-1 FFT

Wc(n)
73 75

Xác định formant Xử lý đồng hình

∗ Tham số cần xác định


-20
∗ Formant Fk
∗ Dải thông Bk -40

∗ Phương pháp
Decibels
∗ Xử lý đồng hình -60

∗ LPC
-80

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

Frequency in Hz units

74 76

19
15/04/2013

Một số tính chất thống kê của


Phương pháp LPC
tín hiệu tiếng nói

Bộ lọc
Tính hệ
hiệu chỉnh
Cửa sổ
số ai ∗ Mật độ xác suất
s(n) Nξ : số lượng mẫu x(n) Tiếng nói

Tính1/ |A(ejω)| Tìm có biên độ trong


Fk,Bk
bằng FFT cực đại khoảng [ξ-∆ξ/2, ξ+∆ξ/2]
Quyết định n ∈[-N,...,N]
Tính nghiệm
x egodic pvà(ξdừng
) = lim [ Nξ /(2 N + 1)]
của A(z) x
N →∞
∆ξ → 0

77 79

3. Mã hóa tiếng nói Giá trị trung bình và phương sai

∗ Giá trị trung



bình của tín hiệu dừng
N
∗ Dãy thao tác mã hoá và giải mã 1
µx = ∫ ξ px (ξ ) d ξ = lim ∑ x ( n)
Nhiễu, suy giảm,
sai số
Lọc1 AD Mã hoá N →∞ 2 N + 1
−∞ n =− N
với tín hiệu tiếng nói µx = 0
Nhiễu, suy giảm,
sai số
∗ Phương sai
∞ N
Giải mã DA Lọc2 1
σ x2 = ∫ ξ px (ξ ) d ξ = lim
2
N →∞ 2 N + 1

n =− N
x 2 ( n)
−∞

78 80

20
15/04/2013

Lượng tử tức thời (không nhớ) Thông lượng

∗ Luật lượng tử y = Q(x) được định nghĩa: Tần số lấy Số bit cho Thông Dung lượng /
∗ (L+1) mức tín hiệu x(0), x(1), ..., x(L) mẫu (kHz) 1 mẫu luợng kbit/s phút (kbyte)
Lĩnh vực

∗ L mức lượng tử hoá 48 16 768 11520 Ghi âm chuyên


∗ Mỗi mức lượng tử hoá biểu diễn bằng từ b bit nghiệp

L = 2b. 44,1 16 705,6 10584 CD Audio

∗ Sai số lượng tử (tạp âm lượng tử) eq = Q(x) - x


∗ Bước lượng tử : hiệu 2 mức tín hiệu kề nhau 32 16 512 7680 Radio FM

∆(i) = x(i)-x(i-1) 22 12 264 3960 Radio AM


∗ Thông lượng I = bFs (bit/s). Fs : tần số lấy mẫu
8 8 64 960 Điện thoại

81 83

Thông lượng Lượng tử đều

∗ Tín hiệu lượng tử 8 bit (256 mức), Fs = 8 kHz → ∗ Tổng quát, bước lượng tử là hàm của biên độ tín
Thông lượng = 64 kbit/s hiệu x (lượng tử không đều) → đơn giản nhất là
lượng tử đều.
∗ Tín hiệu lượng tử 16 bit (65536 mức), ∗ Lượng tử đơn cực: Tín hiệu tương tự biến thiên
Fs = 16 kHz → Thông lượng = 256 kbit/s , từ 0 von đến đến một giá trị dương nào đó.
1 giờ tiếng nói ~100 Mbyte ∗ Lượng tử lưỡng cực: Tín hiệu tương tự biến thiên
từ giá trị âm đến giá trị dương nào đó.
∗ Cần phải mã hoá tín hiệu tiếng nói (MPEG, GSM, G723, ∗ xmax, xmin: giá trị cực đại và cực tiểu của tín hiệu
...) để truyền tiếng nói trên mạng hoặc lưu trữ tương tự x

82 84

21
15/04/2013

Lượng tử đều Lượng tử đều

∗ L: Số mức lượng tử, b: số bit cho một mức Bảng lượng tử của bộ lượng tử đơn cực 3 bit, xmin= 0
lượng tử dùng trong ADC. L = 2b xmax= giá trị điện áp cực đại
∗ Bước lượng tử ∆ = ( xmax- xmin)/ L ∗
∗ i: chỉ số tương ứng với mã nhị phân
i = round (( x- xmin)/ ∆)
∗ xq: mức lượng tử
xq= xmin + i∆, i = 0, 1,…, L – 1
∗ eq: sai số lượng tử eq= xq - x
85 87

Lượng tử đều Lượng tử đều

∗ Đơn cực ∗ Lưỡng cực


xmin= 0 xmin= - 4∆
xmax= 8∆ xmax= 4∆
b=3
b=3
L=8
xq= 0 + i∆,
i = 0, 1,…, L – 1
-∆/2≤ eq ≤ ∆/2

86 88

22
15/04/2013

Lượng tử đều Lượng tử đều

∗ Bảng lượng tử của bộ lượng tử lưỡng cực 3 bit, ∗ L = 16 0 .8

0 .6
xmax= giá trị điện áp cực đại, xmin= -xmax
0 .4

0 .2

-0. 2

-0. 4

-0. 6

-0. 8

-1
0 2 4 6 8 10 12 14

89 91

Lượng tử đều Lượng tử đều


1
1

0
0.8

-1
0.6
0 2 4 6 8 10 12
1
0.4

0
0.2

-1
0 0 2 4 6 8 10 12
1

-0.2
0
-0.4
-1
0 2 4 6 ation E rror
Quantific 8 10 12
-0.6
0.2

-0.8
0

-1
0 2 4 6 8 10 12 14 -0.2
0 2 4 6 8 10 12

90 92

23
15/04/2013

Lượng tử đều Các tính chất lượng tử đều


σ x2
∗ Tỷ số tín hiệu trên nhiễu SN =
4 bit σ e2
σ2  x 
SN ( dB ) = 10 lg  x2  = 6, 02b + 4, 77 − 20 lg  max 
 σe   σx 
NÕu xmax = 4σ max → SN (d B) = 6b − 7,3
8 bit
Với b ≥ 6, tăng 6 dB mỗi khi tăng 1 bit lượng tử. Để có
chất lượng thích hợp cần có b ≥ 11
∗ Có thể tính SN như sau: N −1 N −1
1
16 bit
N
∑x 2
(n) ∑x 2
(n)
SN = n=0
N −1
= n =0
N −1
1
93 95
N
∑e
n=0
2
q (n) ∑e
n=0
2
q (n)

Các tính chất lượng tử đều Tỷ số tín hiệu trên nhiễu

∗ Mật độ xác suấtℓ sai số lượng tử N¨ng l−îng tÝn hiÖu Ws


SN = =
pe (ξ ) = ∑ px (i ∆ + ξ ), ℓ = ( L − 1) / 2 N¨ng l−îng nhiÔu Wn
i =−ℓ

phân bố đều giữa - ∆/2 và + ∆ /2 SN dB = 10 log 10 SN


pe (ξ ) = 1/ ∆, ξ ≤ ∆ / 2
= 0, ξ > ∆ / 2 hoặc
∗ Trung bình tạp âm lượng tử = 0 Biª n ®é tÝn hiÖu
∗ Phương sai δ /2
SN dB = 20 log 10
σ e2 = ∫ ξ 2 / ∆ d ξ = ∆ 2 /12
Biª n ®é nhiÔu
−δ / 2
94 96

24
15/04/2013

Tỷ số tín hiệu trên nhiễu Lượng tử logarit

Năng lượng SN (dB)


Tín hiệu = Nhiễu 0
∗ Hai giải pháp dùng cho điện thoại
Tín hiệu = 2 Nhiễu 2 ∗ Luật µ (dùng ở Mỹ)

Tín hiệu = 10 Nhiễu 10


log(1 + µ x )
y =
Tín hiệu = 100 Nhiễu 20 log(1 + µ )

Tín hiệu = 1000 Nhiễu 30


Tín hiệu = 10N Nhiễu N x 10
97 99

Lượng tử logarit Lượng tử logarit


∗ Sau khi lấy logarit biên độ tín hiệu sẽ mã hoá tuyến

tính y(n) y(n)
log[] Q[] Mã hóa
∗ Hai giải pháp dùng cho điện thoại
x(n) c(n)
∗ Luật A(dùng ở châu Âu)
1 + log A x
signe[] y =
1 + log A
ŷ'(n)
x̂'(n) µ = 255 ∼ A = 87,56
c’(n) Giải mã exp[] x̂'(n)

8 bit logarit ~ 12 bit lượng tử đều


signe[x(n)]
98 100

25
15/04/2013

Một số chuẩn mã hoá


Lượng tử thích nghi
âm thanh/tiếng nói
∗ Bước lượng tử tuỳ thuộc vào biên độ tín hiệu
∗ Thích nghi trước
y(n)= x(n) G(n) ŷ(n)
∗ G.721 : ADPCM, 32 kbps, 4bits, 8kHz
x(n)
Q[] Mã hóa ∗ G.722 : ~ADPCM, 48 đến 64 kbps,
∗ G.723 : ~ADPCM, 24 kbps, 3 bits, 8kHz
c(n)
Thích nghi
∗ G.728 : 16 Kbps
∗ GSM : điện thoại di động, 13 kbps
độ k.đại G(n) ∆ G(n)
∗ Linear Predictive Encoding (Xerox), 5 kbps
∗ Code Excited Linear Prediction (CELP)
ˆ
x'(n) =
ˆ
y'(n)
:
ŷ'(n) ∗ Digital Video Interactive : ~ADPCM, 4 đến 8 bits
Giải mã c’(n)
G'(n) ∗ VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)
101
G’(n) 103

Lượng tử thích nghi 4. Tổng hợp tiếng nói

∗ Thích nghi sau ŷ(n)


Q[] Mã hóa
y(n) ∗ Tạo tiếng nói xuất phát từ biểu diễn ngữ âm của lời
x(n) c(n)
nói
∗ Kỹ thuật tổng hợp tiếng nói:

G(n) Thích nghi ∗ Tổng hợp trực tiếp
độ k.đại ∗ Tổng hợp dựa trên mô hình
ˆ ŷ'(n) ∗ Bộ tổng hợp formant
y'(n)
ˆ
x'(n) = : Giải mã c’(n) ∗ Bộ tổng hợp dùng LPC
G'(n)
∗ Bộ tổng hợp mô phỏng bộ máy phát âm
G’(n) Thích nghi
102
độ k.đại 104

26
15/04/2013

Phân loại Tổng hợp formant


A1
F0 F1 F2 F3
Tạo xung
∗ Chất lượng bộ tổng hợp: Mức độ tự nhiên
A2
∗ Mức độ rõ
∗ Thanh điệu Khoang miệng
∗ Ngữ điệu
∗ Số lượng từ vựng: A3
∗ Hạn chế
∗ Không hạn chế Kênh mũi
∗ Bộ tổng hợp tiếng nói từ văn bản (Text-to-
Speech) A4 B1 B2 B3

105
Tạo tạp âm 107

Tổng hợp trực tiếp Tổng hợp LPC

F0
Tạo xung A
∗ Ghi âm tiếng nói tự nhiên
- Đơn vị ghi âm
- Ghép các đơn vị ghi âm: từ, câu. Bộ lọc số
∗ Đơn vị ghi âm bậc p
∗ âm vị : hiện tượng đồng cấu âm (coarticulation)
∗ âm tiết (diphone - âm vị kép)
Tạo tạp âm
∗ từ
∗ tổ hợp từ a1 a2 ... ap
∗ Câu
nam = n + a + m
= n + am Synthesis-by-Analysis
= na + m
= na + am

106 108

27
15/04/2013

Mô phỏng bộ máy phát âm Mô phỏng tuyến âm

Nguồn âm Tuyến âm

Rời rạc hóa


Tham số điều khiển
Ống âm tương đương

Ống âm được rời rạc hóa


∗ Mô phỏng nguồn âm (nguồn tuần hoàn)
Mô phỏng dây thanh:Mô hình một khối, Mô hình
hai khối, Mô hình nhiều khối, Mô hình hai dầm...
109 111

Mô hình nguồn âm Mô hình phản xạ

∗ Giả thiết
∗ Vách ngăn cứng
∗ Sóng truyền đơn hướng (dọc theo trục ống)chỉ xét các
Mô hình 2 khối tần số < 5000 Hz, biến thiên diện tích không quá đột
ngột
∗ Bỏ qua tổn hao: tính lỏng, truyền nhiệt

Mô hình nhiều khối


110 112
Mô hình 2 dầm

28
15/04/2013

Ống tiết diện đều, không tổn hao Xét trong miền tần số

∗ Sóng tới và sóng phản xạ có dạng


x x
∗ Ống tiết diện đều và  x jΩ (t − )  x jΩ (t + )

đường dây tương đương


u+  t −  = K +e c
, u −  t +  = K −e c

 c  c
v(l,t)=0 ∗ Điều kiện biên tại thanh môn
∗ Hệ phương trình Webster
u (0, t ) = uG (t ) = U G (Ω)e jΩt

∂p ρ ∂u
= 0
 x
u ( x, t) = u +  t − 
 x
− u− t +  ∗ Điều kiện biên tại môi p ( ℓ, t ) = 0
∂x A ∂t  c   c 

∂u
=
A ∂p  + x  −  x  ρ0c sin[Ω(ℓ − x)/ c] cos[Ω(ℓ − x)/ c]
∂x ρ 0c 2 ∂t
p ( x, t ) = u  t −  + u t + c  p(x, t) = jZ0 UG (Ω)e jΩt , u(x, t) = UG (Ω)e jΩt
  c  
u: thông lượng, p: áp suất, ρ: mật độ không khí, c: vận tốc sóng âm
 A cos Ωℓ / c cos Ωℓ / c
ρ0 c
Z0 =
113 115
A

Tương tự âm học – điện học Đáp ứng tần số


Âm học Điện học u (ℓ, t ) = U (ℓ, Ω)e jΩt
1
p: Áp suất v: Điện áp
∗ Tại môi x = ℓ ⇒ U ( ℓ, Ω ) = U G ( Ω)
u: Thông lượng i: Dòng điện cos ( Ωℓ / c )
ρ0/A: Điện cảm âm học U (ℓ , Ω ) 1
L: Điện cảm
∗ Đáp ứng tần số H (Ω) = =
A/ρ0 c 2: Điện dung âm học C: Điện dung U G (Ω) cos(Ωℓ / c)
H (Ω) → ∞ víi
(2n + 1)c
f =
4ℓ
ℓ = 17,5 cm, c=350 m/s
f = 500,1500, 2500... Hz
114 116

29
15/04/2013

Mô hình phản xạ không tổn hao


Phân bố sóng
(Kelly-Lochbaum)
u k+ + 1 (t) u k+ + 1 (t - τ k + 1 )
u+k (t) uk+ (t −τ) (1+ rk ) u+k+1(t) uk++1(t −τ)
trÔ trÔ
u k+ (t) u k+ (t - τ k ) τ τ

−rk
rk
u k- (t) u k- (t + τ k )
trÔ trÔ
u k- + 1 (t) u k- + 1 (t + τ k + 1 ) u−k (t)
τ
uk− (t +τ) (1− rk ) u−k+1(t)
τ −
uk+1 (t+τ)

0 ℓk 0 Ống k ℓ 0 Ống k+1 ℓ


ℓ k +1
tiết diện Ak Tiếp giáp

0 tiết diện Ak+1



∗ Các ống cơ bản có cùng chiều dài τ k = τ k +1 = =τ
c
117 119

Mô hình phản xạ không tổn hao


Hiệu ứng của các tổn hao
(Kelly-Lochbaum)
∗ Tổn hao do dịch chuyển không khí trong tuyến âm
∗ Tính liên tục của áp suất và thông lượng ∗ Do tính lỏng của không khí
p k (ℓ, t) = p k +1 (0, t) ∗ Do truyền nhiệt
u k (ℓ, t) = u k +1 (0, t)
∗ Do rung vách ngăn
2 A k+1 A − Ak −
u +k+1 (t) = u k+ (t - τ) + k+1 u k +1 (t) tính lỏng
A k+1 + A k A k+1 + A k
A − Ak + 2 Ak
u k− (t+ τ) = − k+1 u k (t - τ) + u k− +1 (t)
A k+1 + A k A k+1 + A k
A k+1 − A k
∗ Đặt hệ số phản xạ rk =
A k+1 + A k
u +k+1 (t) = (1 + rk ) u +k (t - τ) + rk u k− +1 (t) truyền nhiệt
rung

u k− (t+ τ) = − rk u +k (t - τ) + (1 − rk ) u k− +1 (t)
118 120

30
15/04/2013

Hiệu ứng của các tổn hao 5. Nhận dạng tiếng nói

∗ Tổn hao do bức xạ tại môi


∗ Mô hình quả bóng vô hạn ∗ Hai giai đoạn: huấn luyện (học) – nhận dạng
∗ Phân loại theo
∗ Số lượng từ vựng
p (Ω) j ΩLr Rr ∗ Từ rời rạc – liên tục
∗ Trở kháng bức xạ Zr = =
U (Ω, ℓ) Rr + j ΩLr ∗ Một người nói – nhiều người nói
128 8a ∗ Nhận dạng từ – câu
Rr = , Lr =
9π 2 3π c
a: b¸n kÝnh më t¹i m«i
121 123

Hiệu ứng chung của các tổn hao Phân loại theo độ phức tạp
Dải thông

∗ Nhận dạng từ riêng lẻ, từ vựng ít (<100), một người


nói
Bức xạ tại môi ∗ Từ vựng nhiều hơn (vài nghìn từ), một người nói
∗ Như trên nhưng cho hệ thống nhiều người nói
∗ Nhận dạng các từ đi với nhau, từ vựng ít (hàng chục
Rung từ)
Nhiệt+lỏng ∗ Nhận dạng câu ngắn, từ vựng hạn chế, một người nói
∗ Như trên nhưng cho hệ thống nhiều người nói
∗ Nhận dạng lời nói liên tục, một hoặc nhiều người nói

122 124

31
15/04/2013

Nhận dạng người nói (Speaker Recognition)

∗ Kiểm tra (verification) giọng nói


∗ Định danh (identification) giọng nói

125

Một số vấn đề đối với hệ thống


nhận dạng tiếng nói

∗ Phát hiện khoảng lặng, phát hiện tiếng nói


∗ Cải thiện chất lượng tín hiệu tiếng nói (giảm
nhiễu)
∗ Tiếng nói được phát âm với thời hạn và nhịp
điệu khác nhau
∗ Mô hình nhận dạng
∗ Mô hình Markov ẩn (Hidden Markov Model: HMM)
∗ Mạng nơ-ron

126

32

You might also like