Professional Documents
Culture Documents
KHOA ĐIỆN TỬ
Lớp : CN KTMT2
MỤC LỤC
[Type here]
Trường Đại Học Công Nghiệp Hà Nội 2
Khoa Điện Tử
- Cường độ âm thanh: Là năng lượng được sóng âm truyền trong một đơn vị
thời gian qua một đơn vị diện tích đặt vuông góc với phương truyền âm
- Thanh áp: Là lực tác dụng vào tai người nghe hoặc tại một điểm nào đó của
trường âm thanh. Đơn vị : 1pa=1 N/m2 hoặc 1bar = 1dyn/cm2.
- Âm sắc: Trong thành phần của âm thanh, ngoài tần số cơ bản còn có các
sóng hài, số lượng sóng hài biểu diễn sắc thái của âm. Âm sắc là một đặc
tính của âm nhờ đó mà ta phân biệt được tiếng trầm, bổng khác nhau, phân
biệt được tiếng nhạc cụ, tiếng nam nữ, tiếng người này với người khác.
tính năng được trích xuất từ đầu vào giọng nói của người đó với người nói từ
một nhóm người đã biết.
Tất cả các hệ thống nhận dạng tiếng nói phải phục vụ hai giai đoạn phân
biệt. Cái đầu tiên được gọi là giai đoạn tuyển sinh hoặc đào tạo, trong khi cái thứ
hai được gọi là giai đoạn vận hành hoặc thử nghiệm. Trong giai đoạn đào tạo,
mỗi diễn giả đã đăng ký phải cung cấp các mẫu bài phát biểu của mình để hệ
thống có thể xây dựng hoặc huấn luyện một mô hình tham chiếu cho người nói
đó. Trong trường hợp hệ thống xác minh tiếng nói, ngoài ra, ngưỡng dành riêng
cho người nói cũng được tính từ các mẫu đào tạo. Trong giai đoạn thử nghiệm,
lời nói đầu vào được khớp với (các) mô hình tham chiếu được lưu trữ và quyết
định công nhận được đưa ra.
Nhận dạng tiếng nói là một nhiệm vụ khó khăn. Nhận dạng tiếng nói tự
động hoạt động dựa trên tiền đề rằng một người nói tiếng nói thể hiện các đặc
điểm duy nhất cho người nói. Tuy nhiên, nhiệm vụ này đã bị thách thức bởi sự
biến đổi cao của tín hiệu tiếng nói đầu vào. Nguồn gốc của phương sai là chính
người nói. Tín hiệu lời nói trong các buổi đào tạo và kiểm tra có thể khác nhau
rất nhiều do nhiều sự thật như thay đổi giọng nói theo thời gian, tình trạng sức
khỏe (ví dụ: người nói bị cảm lạnh), tốc độ nói, v.v. Ngoài ra còn có các yếu tố
khác, ngoài khả năng biến đổi của tiếng nói , đưa ra một thách thức đối với công
nghệ nhận dạng tiếng nói . Ví dụ trong số này là tiếng ồn và các biến thể trong
môi trường ghi âm (ví dụ: người nói sử dụng các thiết bị cầm tay điện thoại khác
nhau).
Kết quả của việc biến đổi này, tức là spectrum, được biểu diễn dưới dạng hai
chiều (x', y') với x' là tần số (Hz) và y'là cường độ (dB).
Ở hình trên, các điểm màu đỏ được gọi là Formants, là nơi có các tần số áp
đảo (dominant), mang đặc tính của âm thanh. Đường màu đỏ gọi là Spectral
(Công thức 3)
(Công thức 4)
Nói chung Xk, là những số phức và chúng em chỉ xem xét các giá trị tuyệt
đối của chúng (cường độ tần số). Chuỗi kết quả {Xk} được hiểu như sau: tần số
dương tương ứng với các giá trị, trong khi tần số âm tương ứng. Ở đây, Fs biểu
thị tần số lấy mẫu. Kết quả sau bước này thường được gọi là phổ hoặc biểu đồ.
Một cách tiếp cận để mô phỏng phổ chủ quan là sử dụng ngân hàng bộ lọc,
cách đều nhau trên thang đo mel .Ngân hàng bộ lọc đó có đáp ứng tần số băng
thông hình tam giác và khoảng cách cũng như băng thông được xác định bởi
một khoảng tần số mel không đổi. Số lượng các hệ số phổ Mel, K, thường được
chọn là 20. Một cách suy nghĩ hữu ích về ngân hàng bộ lọc bọc mel này là xem
mỗi bộ lọc dưới dạng thùng biểu đồ (trong đó các thùng có chồng lấp) trong
miền tần số.
3.5 Cepstrum
Trong bước cuối cùng này, chuyển đổi phổ Mel trở lại thời gian. Kết quả
được gọi là hệ số cepstrum tần số mel (MFCC). Biểu diễn cepstral của phổ
giọng nói cung cấp một biểu diễn tốt về các tính chất phổ cục bộ của tín hiệu
cho phân tích khung đã cho. Vì các hệ số phổ mel (và do đó logarit của chúng)
là số thực, nên chúng em có thể chuyển đổi chúng thành miền thời gian bằng
cách sử dụng biến đổi Cosine rời rạc (DCT). Do đó, nếu chúng ta biểu thị các hệ
số phổ công suất mel là kết quả của bước cuối cùng, chúng ta có thể tính toán
MFCC, như
K ~ 1
c~n (log Sk ) cos n k , n 0,1,..., K-1
k1 2 K
(Công thức 5)
Lưu ý rằng chúng em loại trừ thành phần đầu tiên, khỏi DCT vì nó đại diện
cho giá trị trung bình của tín hiệu đầu vào, mang ít thông tin cụ thể của người
nói.
4.Tính năng phù hợp
chúng em được áp dụng cho các tính năng được trích xuất, nên nó cũng có thể
được gọi là kết hợp tính năng.
Hơn nữa, nếu tồn tại một số tập hợp các mẫu mà các lớp riêng lẻ đã biết, thì
chúng có một vấn đề trong nhận dạng mẫu được giám sát. Các mẫu này bao gồm
tập huấn luyện và được sử dụng để rút ra thuật toán phân loại. Các mẫu còn lại
sau đó được sử dụng để kiểm tra thuật toán phân loại; các mẫu này được gọi
chung là bộ thử nghiệm. Nếu các lớp chính xác của các mẫu riêng lẻ trong tập
kiểm tra cũng được biết đến, thì người ta có thể đánh giá hiệu suất của thuật
toán.
Các kỹ thuật kết hợp tính năng tiên tiến được sử dụng trong nhận dạng tiếng
nói bao gồm Dynamic Time Warping (DTW), Hidden Markov Modelling
(HMM) và Vector Quantization (VQ). Trong dự án này, phương pháp VQ sẽ
được sử dụng, do dễ thực hiện và độ chính xác cao. VQ là một quá trình ánh xạ
các vectơ từ một không gian vectơ lớn đến một số lượng hữu hạn các vùng trong
không gian đó. Mỗi vùng được gọi là một cụm và có thể được đại diện bởi trung
tâm của nó được gọi là từ mã. Bộ sưu tập của tất cả các từ mã được gọi là một
cuốn sách mã.
Hình 9 cho thấy một sơ đồ khái niệm để minh họa quá trình nhận dạng này.
Trong hình, chỉ có hai tiếng nói và hai chiều của không gian âm thanh được hiển
thị. Các vòng tròn đề cập đến các vectơ âm thanh từ tiếng nói 1 trong khi các
tam giác là từ tiếng nói 2. Trong giai đoạn huấn luyện, sử dụng thuật toán phân
cụm, một cuốn sách mã VQ dành riêng cho người nói được tạo cho mỗi tiếng
nói được biết bằng cách phân cụm / cô đào vectơ âm thanh. Các từ mã kết quả
(centroid) được hiển thị trong Hình 5 bằng các vòng tròn màu đen và hình tam
giác màu đen cho tiếng nói 1 và 2, tương ứng. Khoảng cách từ một vectơ đến từ
mã gần nhất của một cuốn sách mã được gọi là biến dạng VQ. Trong giai đoạn
nhận dạng, một phát ngôn đầu vào của một giọng nói không xác định là Vectơ
lượng tử hóa vector sử dụng từng cuốn sách mã được đào tạo và tổng độ méo
VQ được tính toán. Tiếng nói tương ứng với bảng mã VQ có tổng độ méo nhỏ
nhất được xác định là tiếng nói của cách nói đầu vào.
Hình 9: Sơ đồ khái niệm minh họa vector hình thành lượng tử hóa
Một người nói có thể được phân biệt đối xử từ người khác dựa trên vị trí của
centroid.
y +n = y n (1+ε ) −
; y n = y n (1−ε) Công thức 6.
Trong đó n thay đổi từ 1 đến kích thước hiện tại của cuốn sách mã và là một
tham số tách (chúng em chọn = 0,01).
Tìm kiếm hàng xóm gần nhất:đối với mỗi vector đào tạo, tìm từ mã trong
cuốn sách mã hiện tại gần nhất (về phép đo độ tương tự) và gán vecto đó cho ô
tương ứng ( được liên kết với từ mã gần nhất)
Cập nhật Centroid: cập nhật từ mã trong mỗi ô bằng cách sử dụng tâm của
các vecto huấn luyện được gán cho ô đó:
Lặp lại 1: lặp lại bước 3 và bước 4 cho đến khi khoảng cách trung bình giảm
xuống dưới ngưỡng đặt trước
Lặp lại 2: lặp lại các bước 2, 3 và 4 cho đến khi kích thước danh bạ của M được
thiết kế.
Theo trực giác, thuật toán LBG thiết kế một bảng mã M-vector theo các giai
đoạn. Trước tiên, nó bắt đầu bằng cách thiết kế một bảng mã 1 vectơ, sau đó sử
dụng kỹ thuật phân tách trên các từ mã để khởi tạo tìm kiếm cho một bảng mã 2
vectơ và tiếp tục quá trình phân tách cho đến khi có được bảng mã M-vector
mong muốn.
Hình 10 cho thấy, trong một sơ đồ dòng, các bước chi tiết của thuật toán
LBG. Các vectơ cụm là một thủ tục tìm kiếm lân cận gần nhất, gán mỗi vectơ
huấn luyện cho một cụm liên kết với từ mã gần nhất. Công cụ tính toán D (biến
dạng) tổng hợp khoảng cách của tất cả các vectơ đào tạo trong tìm kiếm lân cận
gần nhất để xác định xem quy trình đã hội tụ chưa.
Quá trình thu âm để tạo mẫu và giọng nói đầu vào được thực hiện như sau:
Bước 1: Đầu vào thu âm từ micro (thu âm ở tần số 8000Hz trong thời gian
khoảng 2s) cho mẫu tiếng nói của từng người.
Bước 2:Tiến hành thu âm tương tự bước 1 cho phần âm thanh kiểm tra.
Bước tiếp theo cùng trong xử lý lời nói là chuyển đổi phổ công suất thành các
hệ số cepstrum tần số mel. Chức năng được cung cấp melfb tạo điều kiện cho
nhiệm vụ này
Cuối cùng, hoàn thành bước Cepstrum, và đặt tất cả các phần lại với nhau
thành một hàm Matlab, mfcc, thực hiện quá trình xử lý MFCC.
2. Chương trình
2.1 Giao diện chính của chương trình MFCC_Respond
r = dct(log(z));
end
pesi(4) = 0.90;
pesi(5) = 0.70;
pesi(6) = 0.90;
pesi(7) = 1.00;
pesi(8) = 1.00;
pesi(9) = 1.00;
pesi(10) = 0.95;
pesi(11:13) = 0.30;
out = sum(abs(x-y).*pesi);
end
end
3.Đánh giá
Đánh giá chương trình qua 2 phần: phần trong môi trường có ít tiếng ồn và
môi trường có tiếng ồn vừa. Ở đây đầu vào có 2 người, mỗi người thực hiện 5
lần trong hai môi trường bên trên và tổng cộng là 20 lần thử. Kết quả cho 20 lần
thử được ghi lại vào bảng dưới đây:
Có 3 tham số để đánh giá: False Recognized(FR), Successful
Recognized(SR), Unrecognized(UR)
TH1: trong môi trường có tiếng ồn.
Lần 1:
Họ và tên FR SR UR
Nguyễn Thanh Tùng X
Quách Đình Thưởng X
Lần 2:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 3:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 4:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 5:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
- Tỉ lệ thành công= Tổng số lần nhận dạng thành công / Tổng số lần
- Tỉ lệ nhận dạng sai= Tổng số lần nhận dạng sai / Tổng số lần
- Tỉ lệ không nhận dạng = Tổng số lần không nhận dạng ra / Tổng số lần
Tương tự như TH1 ở môi trường có tiếng ồn thì ta kết quả ta thu được ở môi
trường có tiếng ồn vừa là:
Table 1: Kết quả nhận dạng trong môi trường có tiếng ồn
Họ và tên FR SR UR
Ôn Quang Trung 1/5 3/5 1/5
Quách Đình Thưởng 1/5 2/5 2/5
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 2:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 3:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 4:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
Lần 5:
Họ và tên FR SR UR
Ôn Quang Trung X
Quách Đình Thưởng X
- Tỉ lệ thành công= Tổng số lần nhận dạng thành công / Tổng số lần
- Tỉ lệ nhận dạng sai= Tổng số lần nhận dạng sai / Tổng số lần
- Tỉ lệ không nhận dạng = Tổng số lần không nhận dạng ra / Tổng số lần
Table 2: Kết quả nhận dạng trong môi trường yên tĩnh
Họ và tên FR SR UR
Ôn Quang Trung 1/5 4/5 0
Quách Đình Thưởng 2/5 2/5 1
Dựa vào bảng 2 kết quả trên cho ta thấy, tỷ lệ :
UR= 3/10= 30 %
FR= 6/10= 60 %
SR= 1/10= 10 %
Kết luận: trong môi trường có tiếng ồn, xác suất nhận dạng giọng nói thành công
là 47,7 %, nhờ ít bị tác động yếu tố tiếng ồn làm cho khả năng nhận dạng tốt
hơn, và trường hợp không thể nhận dạng (UR) giảm xuống chỉ còn 13,3 %.
Chúng em xin cảm ơn các thầy, cô giảng dạy trong trường Đại Học Công
Nghiệp Hà Nội, Quý Thầy Cô trong khoa Điện Tử đã tạo điều kiện cho chúng
em thực hiện đề tài này. Đặc biệt là thầy Kim Đinh Thái, thầy đã định hướng
cho chúng em có những bước đi đầu đời về một cách nhìn khoa học về lĩnh vực
Trí Tuệ Nhân Tạo- một lĩnh vực quan trọng hàng đầu trong các lĩnh vực khoa
học , và sự cố gắng phấn đấu trong tương lai, điều này có ý nghĩa rất sâu sắc đối
với chúng em, giúp chúng em tự tin và nổ lực hoàn thành đề tài này đúng thời
hạn. Một lần nữa, chúng em xin bày tỏ lòng biết ơn sâu sắc.
Chúng em xin chân thành cảm ơn!
[1] L.R. Rabiner và B.H. Juang, Nguyên tắc cơ bản của nhận dạng giọng nói,
Prentice-Hall, Englewood Cliffs, N.J., 1993.
[2] L.R Rabiner và R.W. Schafer, Xử lý kỹ thuật số tín hiệu lời nói, Prentice-
Hall, Englewood Cliffs, N.J., 1978.
[3] S.B. Davis và P. Mermelstein, so sánh các đại diện tham số cho nhận
dạng từ đơn âm tiết trong các câu được nói liên tục, Giao dịch của IEEE về âm
học, lời nói, xử lý tín hiệu, Vol. ASSP-28, số 4, tháng 8 năm 1980.
[4] Y. Linde, A. Buzo & R. Grey, Thuật toán cho thiết kế bộ lượng tử hóa
vector, Giao dịch của IEEE về Truyền thông, Tập. 28, tr.84-95, 1980.
[5] S. Furui, Nhận dạng từ độc lập của tiếng nói Tiếng nói sử dụng các tính
năng động của phổ giọng nói, Giao dịch của IEEE về Âm thanh, Lời nói, Xử lý
tín hiệu, Tập. ASSP-34, số 1, trang 52-59, tháng 2 năm 1986.