Professional Documents
Culture Documents
Nghien Cuu Cac Thuat Toan Mo de Giam Nhieu Tieng Vang Trong Mien Pho Nham Nang C 2fS47 20130130104945 15188
Nghien Cuu Cac Thuat Toan Mo de Giam Nhieu Tieng Vang Trong Mien Pho Nham Nang C 2fS47 20130130104945 15188
SVTH: Nguyễn Thị Phương Mai, Trần Thủy Nguyên, Đỗ Thị Hoàng Yến
Lớp 05DT1,2, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa
GVHD : TS. Phạm Văn Tuấn
Khoa Điện tử Viễn thông, Trường Đại họcBách khoa
TÓM TẮT
Bài báo này nghiên cứu và đánh giá hiệu quả của hai kĩ thuật nâng cao chất lượng tín hiệu
tiếng nói trong môi trường nhiễu tiếng vang. Phương pháp thứ nhất loại bỏ thành phần phổ tiếng
vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần số. Phương pháp thứ hai
thực hiện việc ước lượng hằng số thời gian của nhiễu tiếng vang ở các băng tần số khác nhau, rồi
xây dựng mặt nạ loại bỏ phần nhiễu tiếng vang. Các thuật toán này được kiểm tra trên cơ sở dữ
liệu tiếng nói tiếng Việt. Kết quả đánh giá khách quan cho thấy hai thuật tóan trên đều nâng cao
chất lượng tiếng nói bị nhiễu tiếng vang. Thuật tóan mặt nạ, nhìn chung, cho tín hiệu ra có chất
lượng tốt hơn và ổn định hơn. Hiệu quả của thuật toán thể hiện rõ ở vùng nhiễu tiếng vang xa.
ABSTRACT
The objective of this paper is performance assessment of two techniques for speech
enhancement in reverberant environment. The estimation of clean signal is done by subtracting the
mean of logarithm of spectrum in the spectral subtraction algorithm while in the masking algorithm,
T60 of acoustic channel is estimated and part of the signal dominated largely by reverberation is
then removed. The algorithms are tested on a Vietnamese speech corpus. The objective evaluation
results show that these two algorithms improve speech quality and intelligibility of degraded signal.
In general, the making method performs better than mean subtraction in sense of speech quality
improvement. The efficiency of blind technique is more obvious in far field.
1. Giới thiệu
Nhiễu tiếng vang sinh ra do đế
, nhiễu này ảnh hưởng nhiều đến chất lượng và tính hiểu được
của tiếng nói (hình 1). Xử lý triệt/giảm tiếng vang (dereverberation) là vấn đề không đơn
giản vì thông thường thông tin về tính chất của nguồn tín hiệu và điều kiện của kênh truyền
âm thanh không được biết trước hoặc chỉ có rất ít kiến thức liên quan được cung cấp.
216
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
[1] và thuật tóan tạo mặt nạ (spectral masking) [6]. Hiệu quả hai thuật tóan này được thử
nghiệm trên cơ sở dữ liệu tiếng Việt, ảnh hưởng của các thông số đến hiệu quả thuật toán
cũng được khảo sát, hiệu quả của 2 thuật tóan được so sánh ở các khỏang cách nguồn-
microphone khác nhau. Bài báo chia làm ba phần, lần lượt đề cập đến hai thuật toán trên và
các phương pháp đánh giá chất lượng của các thuật toán và kết quả đánh giá đạt được.
Phân đoạn Ước lượng đáp ứng Trừ ước lượng này Khôi phục lại tín
tín hiệu xung của kênh truyền ra khỏi tín hiệu hiệu ban đầu
Phân đoạn Ước lượng RT60 của Xây dựng mặt Nhân mặt nạ với tín
tín hiệu kênh truyền ở các dải hiệu bị nhiễu + khôi
nạ
theo dải tần tần phục lại tín hiệu
217
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
của a được xác định dựa vào bộ số nhận được, giá trị này chính là s*. Tiếp theo ta sử dụng
mặt nạ nhị phân để loại bỏ phần tín hiệu chủ yếu do tiếng vang, giá trị mặt nạ tại vị trí i ở
0 if si s
dải tần nào đó được xác định như sau: mi (1)
1 otherwise
Giá trị α được chọn qua thực nghiệm. Hiệu quả của thuật toán cũng được tính dựa
trên việc so sánh mặt nạ ước lượng với mặt nạ thật (tính theo tín hiệu sạch và tín hiệu
nhiễu):
er
0 if
mˆ i ec (2)
1 otherwise
218
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
Hình 4: So sánh các win length Hình 5: PESQ không có post- Hình 6: PESQ có và không có
processing postprocessing N = 1.024, win = 0.016
219
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
Hình 9: PESQ với các loại bộ lọc trong filterbank Hình 10: PESQ với các chiều dài cứa sổ khác nhau
Theo hình H10 nhận thấy khi dùng cửa sổ có chiều dài khác nhau để tính độ dốc
của đường bao tín hiệu, win_sr = 1600, 800, 400,200. thì win_sz = 400 cho tín hiệu
ra có chất lượng tốt nhất, giá trị này khác với win_sz = 1600 ứng với tần số lấy mẫu
16000 trong [6]
Dùng các loại bộ lọc sau trong filterbank: butterworth độ dịch tần số không đổi,
butterworth logarit tuyến tính, bộ lọc GammaTone. Kết quả mô phỏng (hình H9)
cho thấy bộ lọc logbutter là tốt nhất.
Khi quan sát phổ của tín hiệu ta thấy tín hiệu sau xử lý masking method không tạo
ra nhiễu nhân tạo, tần số cũng không bị dịch đi, làm tín hiệu xử lý dễ nghe hơn.
Mức độ cải thiện chất lượng tiếng nói tín hiệu sau xử lý không phụ thuộc vào khỏang
cách và tín hiệu, hiệu quả của thuật tóan ở vùng xa rõ hơn so với ở vùng gần.
6. Kết luận
Thông qua cơ sở dữ liệu tự tạo ra có độ dài trung bình 8s, qua tìm hiểu đánh giá hai
phương pháp xử lý tiếng vang thực hiện trên các chương trình matlab ta có thể thấy:
Cả hai thuật toán đã cải thiện được chất lượng của tín hiệu bị nhiễu tiếng vang.
Phép đánh giá chất lượng tín hiệu sau khi xử lý giảm tiếng vang dựa trên PESQ và
WSS có độ tin cậy vì tương quan với cảm nhận chủ quan của người nghe.
Khi sử dụng phương pháp trừ phổ, post procesing làm cải thiện chất lượng tín hiệu
rõ . Chất lượng tín hiệu không được nâng cao nếu dùng trừ phổ và không sử dụng
post processing.
Nhìn chung, masking method cho ra kết quả tốt hơn so với trừ phổ, tín hiệu sau xử
lý không bị nhiễu nhân tạo, chất lượng tín hiệu ra không phụ thuộc vào đặc điểm
tiếng nói.
Hiệu quả của cả hai thuật toán masking method và trừ phổ thể hiện rõ ở far_field
hơn so với near_field.
220
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
Trong nghiên cứu này, hiệu quả của thuật toán được đánh giá trong môi trường
không có nhiễu trắng cộng. Hướng phát triển tiếp theo của nghiên cứu này là thử nghiệm
hiệu quả của thuật toán trên cơ sở dữ liệu tiếng việt lớn hơn, dùng đáp ứng xung của các
phòng họp khác và có xét đến ảnh hưởng của nhiễu nền lên hiệu quả của thuật toán.
221