Professional Documents
Culture Documents
Speech 2013
Speech 2013
Ket-noi.com chia se
Nội dung
1 3
2 4
1
15/04/2013
Mục đích
6 8
2
15/04/2013
9 11
10 12
3
15/04/2013
13 15
Thanh môn
Dây thanh
14 16
4
15/04/2013
Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói
10
Decibels
0
-10
-20
-30
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
17 Frequency
19 in Hz
∗ Tần số lấy mẫu: 8kHz, F1= 11025 Hz, 2F1, 4F1 (16kHz,
10kHz)
∗ Số bit/mẫu: 8,16
∗ Mono, Stereo
18 20
5
15/04/2013
Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói
21 23
Biểu diễn tín hiệu tiếng nói Biểu diễn tín hiệu tiếng nói
22 24
6
15/04/2013
25 27
Năng lượng, tỷ lệ biến thiên qua giá trị không Tạo âm vô thanh
file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1
0.4
0.2
amplitude
0
-0.2
-0.4
Signal
-0.6
0 0.5 1 1.5 2 2.5 3 3.5
short-time energy
4 En
3
2 Tín hiệu nguồn vô thanh Tín hiệu âm vô thanh
1
15 Mn
10
80
zero crossing rate
ZC
60 Phổ của nguồn vô thanh
40
20
0 26 28
0.5 1 1.5 2 2.5 3 3.5
time in seconds
7
15/04/2013
8
15/04/2013
∗ Phân loại phụ âm theo tắc hay xát, hữu thanh hay vô
∗ Phân loại nguyên âm theo độ mở của miệng và thanh, mũi hóa
chuyển động của lưỡi
Vị trí cấu âm Đầu lưỡi
Hàng hàng sau không hàng sau Môi Răng Vòm miệng
Mặt lưỡi Cuối lưỡi Họng
hàng trước Phương thức cấu âm
Độ mở tròn môi tròn môi
Bật hơi th
Vô
hẹp i ia,yê,ya,iê ư ưa u ua
thanh p t tr ch c,k,qu
hơi hẹp ê ơ â ô Tắc
Ồn Không bật
hơi Hữu
hơi rộng e o thanh b đ
rộng a ă Vang mũi m n nh ng,ngh
Vô thanh ph x s kh h
Ồn
Xát Hữu thanh v d,gi r g
Vang bên l
33 35
∗ Âm tắc: tiếng nổ, phát sinh do luồng khí từ phổi đi ra bị cản trở hoàn
toàn, phải phá vỡ sự cản trở đó để thoát ra.
∗ Âm xát: tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không
hoàn toàn (chỉ bị khó khăn), phải lách qua một khe hở nhỏ và trong khi
thoát ra như vậy phải cọ xát vào thành của bộ máy phát âm.
∗ Phụ âm bên: đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí, buộc phê bé
nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má mà ra ngoài
tạo nên tiếng xát nhẹ (l).
∗ Luồng không khí thoát ra ngoài bị cản trở, tạo nên tiếng xát hay tiếng
nổ, dạng tín hiệu không tuần hoàn gọi là tiếng động (ồn).
∗ Trong khi phát âm một số phụ âm, dây thanh cũng hoạt động đồng thời
tạo nên tiếng thanh.
∗ Phụ âm có tỉ lệ tiếng động lớn hơn gọi là phụ âm ồn.
∗ Phụ âm có tỉ lệ tiếng thanh lớn hơn gọi là phụ âm vang.
vẽ chè
34 36
9
15/04/2013
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms
0.5
0.4
0.3
0.2
trị tìm
0.1
Amplitude
0
-0.1
-0.2
-0.3
-0.4
-0.5
0 50 100 150 200 250 300 350 400 450 500
tám đánh Time in ms
37 39
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms
0.4
0.3
0.2
0.1
kệ lạ
Amplitude
0
-0.1
-0.2
-0.3
-0.4
khả
0 50 100 150 200 250 300 350 400 450
38 40
Time in ms
10
15/04/2013
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms
0.6
0.4
0.4
0.2
0.2
0
Amplitude
Amplitude
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
-0.8 -0.8
0 100 200 300 400 500 600
Time in ms
0 100 200 300 400 500 600
41 43 Time in ms
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
P H A I R .W A V , F s = 1 1 0 2 5 H z , 6 9 3 4 s a m p le s , T im e = 6 2 9 m s
0.6
N G H IR .W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p le s , T i m e = 6 0 8 m s
0 .3
0.4
0 .2
0 .1
0.2
Amplitude
Amplitude
0
-0 . 1
-0 . 2 -0 . 2
-0 . 3
0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0
T im e in m s -0 . 4
-0 . 6
0 100 2 00 3 00 4 00 5 00 60 0
T im e in m s
42 44
11
15/04/2013
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms
TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms
0.2
0.4
0.15 0.3
0.2
0.1
0.1
0.05
0
Amplitude
Amplitude
0 -0.1
-0.2
-0.05
-0.3
-0.1
-0.4
-0.15 -0.5
-0.6
-0.2
0 50 100 150 200 250 300 350 400 450
0 50 100 150
45 200 250 300 350 400
47 Time in ms
Time in ms
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms
BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms
0.6 0.4
0.3
0.4
0.2
0.1
0.2
Amplitude
Amplitude
0 -0.1
-0.2
-0.2
-0.3
-0.4
-0.4
-0.5
-0.6 46 48
0 100 200 300 400 500 600 700
0 100 200 300 400 500 600 Time in ms
Time in ms
12
15/04/2013
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms
0.3
0.6
0.2
0.4
0.1
0.2
Amplitude
Amplitude
0
-0.1
-0.2
-0.2
-0.4
-0.3
0 100 200 300 49 400 500 600 700 800 0 50 100 150 51
200 250 300 350 400 450 500
Time in ms Time in ms
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms
0.4
0.4
0.2
0.2
0
0
Amplitude
Amplitude
-0.2 -0.2
-0.4
-0.4
-0.6
-0.6
50 0 50 100 150 52
200 250 300 350 400 450
0 100 200 300 400 500 600 Time in ms
Time in ms
13
15/04/2013
Dạng sóng một số từ tiếng Việt Dạng sóng một số từ tiếng Việt
TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms
TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms
0.6
0.4
0.3
0.4
0.2
0.2
0.1
Amplitude
Amplitude
0
0
-0.1
-0.2
-0.2
-0.3 -0.4
0.2
0.1
A
G( z ) = R ( z ) = C (1 − z −1 )
(1 + α z )(1 + β z −1 )
−1
Amplitude
-0.1
-0.2
B
-0.3
V ( z) = K
-0.4 ∏ (1 + b
k =1
1k z −1 + b2 k z −2 )
-0.5
54 56
0 100 200 300 400 500 600 700 800
Time in ms
14
15/04/2013
σ Biên độ
T ( z ) = G ( z )V ( z ) R( z ) = 1
A( z )
1/ 2(−3dB)
∗ A(z): Hàm truyền đạt của bộ lọc đảo
Dải thông Bk
σ 2 K +1 p
T ( z) =
A( z )
A( z ) = 1 + ∑ ai z −i
i =1
A( z ) = ∑ ai z −i
i =0
a0 = 1
p
Fk Tần số
x( n) + ∑ ai x ( n − i) = σ u ( n) P = 2K+1
i =1
57 59
Mô hình ARMA
2. Xử lý tín hiệu tiếng nói
(Autoregressive Moving Average)
p q
x (n) + ∑ ai x (n − i ) = σ ∑ ci u (n − i )
i =1 i =0
15
15/04/2013
Bộ lọc Cửa sổ
FFT Log |.|
hiệu chỉnh Hamming
N
FFT-1
sɵ (n)
e(n)
h(n)
s(n)
c(n)
T0 T0
16
15/04/2013
65 67
∗ Tính hàm tự tương quan R(k) của tín hiệu tiếng nói
x(n)
N −1− k
∗ Giá trị F0 phụ thuộc vào giới tính và lứa tuổi
∗ Giọng nam: 80..250 Hz
R(k ) = ∑n=0
x(n) x(n + k ) k = 0,1,..., K
∗ Giọng nữ: 150..500 Hz Fs = 10 kHz, N = 300, K = 150.Tìm cực đại trong khoảng (0, K)
Tín hiệu
xử lý Fo kết quả
tiếng nói
66 68
17
15/04/2013
0.3
0.2
x(n)
0
-0.1
-0.2
700 750 800 850 900 950 1000 1050 1100 1150
n
0.015
0.01
0.005
r(k)
0
-0.005
-0.01
0 50 100 150 200 250 300
k
0.2
0.15
D(k)
0.1
0.05
0
0 50 100 150 200 250 300
k
69 71
Dựa vào hàm vi sai biên độ trung bình Dùng bộ lọc đảo (SIFT - Simplified Inverse
(AMDF- Average Magnitude Difference Function) Filter Tracking)
N −1
D (k ) = ∑ x(n + m) − x(n + m − k ) k = 0,1,..., K 10kHz
18
15/04/2013
Tín hiệu
tiếng nói
Bộ lọc Cửa sổ FFT
hiệu chỉnh
Wc(n)
73 75
∗ Phương pháp
Decibels
∗ Xử lý đồng hình -60
∗ LPC
-80
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Frequency in Hz units
74 76
19
15/04/2013
Bộ lọc
Tính hệ
hiệu chỉnh
Cửa sổ
số ai ∗ Mật độ xác suất
s(n) Nξ : số lượng mẫu x(n) Tiếng nói
77 79
78 80
20
15/04/2013
∗ Luật lượng tử y = Q(x) được định nghĩa: Tần số lấy Số bit cho Thông Dung lượng /
∗ (L+1) mức tín hiệu x(0), x(1), ..., x(L) mẫu (kHz) 1 mẫu luợng kbit/s phút (kbyte)
Lĩnh vực
81 83
∗ Tín hiệu lượng tử 8 bit (256 mức), Fs = 8 kHz → ∗ Tổng quát, bước lượng tử là hàm của biên độ tín
Thông lượng = 64 kbit/s hiệu x (lượng tử không đều) → đơn giản nhất là
lượng tử đều.
∗ Tín hiệu lượng tử 16 bit (65536 mức), ∗ Lượng tử đơn cực: Tín hiệu tương tự biến thiên
Fs = 16 kHz → Thông lượng = 256 kbit/s , từ 0 von đến đến một giá trị dương nào đó.
1 giờ tiếng nói ~100 Mbyte ∗ Lượng tử lưỡng cực: Tín hiệu tương tự biến thiên
từ giá trị âm đến giá trị dương nào đó.
∗ Cần phải mã hoá tín hiệu tiếng nói (MPEG, GSM, G723, ∗ xmax, xmin: giá trị cực đại và cực tiểu của tín hiệu
...) để truyền tiếng nói trên mạng hoặc lưu trữ tương tự x
82 84
21
15/04/2013
∗ L: Số mức lượng tử, b: số bit cho một mức Bảng lượng tử của bộ lượng tử đơn cực 3 bit, xmin= 0
lượng tử dùng trong ADC. L = 2b xmax= giá trị điện áp cực đại
∗ Bước lượng tử ∆ = ( xmax- xmin)/ L ∗
∗ i: chỉ số tương ứng với mã nhị phân
i = round (( x- xmin)/ ∆)
∗ xq: mức lượng tử
xq= xmin + i∆, i = 0, 1,…, L – 1
∗ eq: sai số lượng tử eq= xq - x
85 87
86 88
22
15/04/2013
0 .6
xmax= giá trị điện áp cực đại, xmin= -xmax
0 .4
0 .2
-0. 2
-0. 4
-0. 6
-0. 8
-1
0 2 4 6 8 10 12 14
89 91
0
0.8
-1
0.6
0 2 4 6 8 10 12
1
0.4
0
0.2
-1
0 0 2 4 6 8 10 12
1
-0.2
0
-0.4
-1
0 2 4 6 ation E rror
Quantific 8 10 12
-0.6
0.2
-0.8
0
-1
0 2 4 6 8 10 12 14 -0.2
0 2 4 6 8 10 12
90 92
23
15/04/2013
24
15/04/2013
25
15/04/2013
26
15/04/2013
105
Tạo tạp âm 107
F0
Tạo xung A
∗ Ghi âm tiếng nói tự nhiên
- Đơn vị ghi âm
- Ghép các đơn vị ghi âm: từ, câu. Bộ lọc số
∗ Đơn vị ghi âm bậc p
∗ âm vị : hiện tượng đồng cấu âm (coarticulation)
∗ âm tiết (diphone - âm vị kép)
Tạo tạp âm
∗ từ
∗ tổ hợp từ a1 a2 ... ap
∗ Câu
nam = n + a + m
= n + am Synthesis-by-Analysis
= na + m
= na + am
106 108
27
15/04/2013
Nguồn âm Tuyến âm
∗ Giả thiết
∗ Vách ngăn cứng
∗ Sóng truyền đơn hướng (dọc theo trục ống)chỉ xét các
Mô hình 2 khối tần số < 5000 Hz, biến thiên diện tích không quá đột
ngột
∗ Bỏ qua tổn hao: tính lỏng, truyền nhiệt
28
15/04/2013
Ống tiết diện đều, không tổn hao Xét trong miền tần số
c c
v(l,t)=0 ∗ Điều kiện biên tại thanh môn
∗ Hệ phương trình Webster
u (0, t ) = uG (t ) = U G (Ω)e jΩt
−
∂p ρ ∂u
= 0
x
u ( x, t) = u + t −
x
− u− t + ∗ Điều kiện biên tại môi p ( ℓ, t ) = 0
∂x A ∂t c c
−
∂u
=
A ∂p + x − x ρ0c sin[Ω(ℓ − x)/ c] cos[Ω(ℓ − x)/ c]
∂x ρ 0c 2 ∂t
p ( x, t ) = u t − + u t + c p(x, t) = jZ0 UG (Ω)e jΩt , u(x, t) = UG (Ω)e jΩt
c
u: thông lượng, p: áp suất, ρ: mật độ không khí, c: vận tốc sóng âm
A cos Ωℓ / c cos Ωℓ / c
ρ0 c
Z0 =
113 115
A
29
15/04/2013
−rk
rk
u k- (t) u k- (t + τ k )
trÔ trÔ
u k- + 1 (t) u k- + 1 (t + τ k + 1 ) u−k (t)
τ
uk− (t +τ) (1− rk ) u−k+1(t)
τ −
uk+1 (t+τ)
u k− (t+ τ) = − rk u +k (t - τ) + (1 − rk ) u k− +1 (t)
118 120
30
15/04/2013
Hiệu ứng của các tổn hao 5. Nhận dạng tiếng nói
Hiệu ứng chung của các tổn hao Phân loại theo độ phức tạp
Dải thông
122 124
31
15/04/2013
125
126
32