You are on page 1of 8

PAGE \* MERGEFORMAT 2

CHƯƠNG 1. MÔ HÌNH HỌC SÂU VỀ XỬ LÝ ÂM THANH

1.1. Khái niệm và nguồn gốc

1.1.1. Học sâu (Deep learning)

Trong những năm gần đây, sự phát triển của hệ thống tính toán và khối dữ liệu
khổng lồ đã tạo điều kiện tốt cho việc nghiên cứu lĩnh vực Trí tuệ nhân. Một
phương thức của học máy (machine learning) với Trí tuệ nhân tạo đã được ra đời
được gọi là Học sâu (deep learning). Học sâu sử dụng các module, thuật toán kết
hợp với dữ liệu đầu vào để nhận biết giọng nói, hình ảnh, âm thanh một cách trực
quan. Trong học sâu dữ liệu thô sẽ được đi qua nhiều lớp. Kết quả của lớp trước trở
thành đầu vào của lớp kế tiếp nó. Lớp đầu tiên là input layer, lớp cuối là output layer
và các lớp giữa là hidden layer.
Một đặc điểm nổi bật của học sâu là khả năng trích xuất các đặc trưng chính để từ
đó có thể suy luận ra các đặc trưng khác trong quá trình học tập và đào tạo
(training).

1.1.2. Phát triển và lịch sử của học sâu

- Perceptron (1957): Giải quyết bài toán phân loại nhị phân nhưng không thể
giải quyết bài toán phức tạp như học hàm XOR.
- Backpropagation (1962): Lan truyền ngược giúp tính toán gradient hiệu
quả.
- Multi-layer Perceptron (1965): Mạng nơ-ron đa tầng đầu tiên.
- Mạng thần kinh sâu (1971): Mạng GMDH có 8 lớp.
- CNN (1980): Mạng tích chập ra đời.
- Hopfield Network (1982): Tiền thân của RNN.
- Boltzmann Machine (1985): Mạng có lớp ẩn không có lớp đầu ra.
- Vanishing Gradient (1991): Vấn đề quan trọng trong huấn luyện mạng sâu.
- LSTM (1997): Mạng nhớ dài-ngắn.
- Deep Belief Network (2006): Đào tạo hiệu quả với dữ liệu lớn.
- Cách mạng GPU (2008): Tăng tốc độ đào tạo.
- Dataset ImageNet (2010): Bộ dữ liệu lớn cho việc phát triển mô hình.
PAGE \* MERGEFORMAT 7
- Hàm kích hoạt ReLu (2011): Giải quyết vấn đề Vanishing Gradient.
- AlexNet (2012): Mô hình CNN có độ chính xác cao.
- GAN (2014): Mạng sinh đối nghịch để tạo dữ liệu giả.

1.2. Cấu trúc và hoạt động của học sâu


1.2.1. Kiến thức cơ bản về học sâu

 Neural Network
Neural Network là mạng lưới nơ ron nhân tạo. Mô hình tổng quát gồm 3 lớp
chính bao gồm lớp đầu tiên (input layer), các lớp ở giữa (hidden layer) và
lớp cuối cùng (output layer). Các kết quả của lớp trước sẽ là đầu vào cho lớp
sau nó. Hình tròn ở hình dưới đây được gọi là node.
Mỗi node đều liên kết với node ở layer trước đó với các hệ số w (weight) và
có hệ số b (bias) riêng.

Hình 1.1 - Mô hình neural network

 Thuật toán lan truyền ngược (Backpropagation)


Để tính các hệ số W và b trong mô hình ta có thể nghĩ tới thuật toán gradient
descent bằng cách tính giá trị nhỏ nhất của các hàm mất mát (loss function).
Tuy nhiên, việc tính toán này thường xảy ra hiện tượng biến mất đạo hàm
(vanishing gradients). Thuật toán lan truyền ngược (Backpropagation) ra đời
nhằm khắc phục nhược điểm trên.
PAGE \* MERGEFORMAT 7
 Bộ dữ liệu (Dataset) và Tăng cường dữ liệu (Data augmentation)
Độ chính xác của mô hình gồm 2 yếu tố chính: model và dữ liệu. Bộ dữ liệu
này có thể lấy từ các thư viện có sẵn hoặc có thể tự làm. Trong phần báo cáo
này thì dữ liệu được tự khởi tạo, vì tiếng gõ bàn phím rất khó tìm kiếm
được. Sử dụng các mẫu đơn ký tự, tạo dữ liệu từ tiếng gõ bàn phím, các
phím từ 0->9 và từ a->z, nhấn các phím theo bảng chữ cái với số lượng 50
lần gõ với từng phím. Và sử dụng các mẫu mật khẩu ngẫu nhiên, độ dài mật
khẩu từ 6-8 và sử dụng 200 mẫu mật khẩu nhập từ bàn phím để tạo bộ dữ
liệu.
Ví dụ: Từ một file âm thanh ban đầu, ta có thể tạo ra file dữ liệu mới
bằng cách thêm nhiễu, thay đổi tần số hoặc thay đổi độ lớn/nhỏ.

 Chuyển giao tri thức (Transfer Learning)


Đây là kỹ thuật áp dụng kết quả đào tạo (training) từ mô hình trước sang bài
toán hiện tại từ đó giảm thiểu thời gian huấn luyện và tăng độ chính xác của
bài toán.
1.2.2. Cấu trúc và kiến thức xử lý âm thanh trong học sâu

Học sâu được sử dụng rộng rãi trong xử lý âm thanh, bao gồm việc phân loại âm
thanh, nhận dạng giọng nói, và dịch âm thanh giữa các ngôn ngữ.
Một số mạng nơ ron cho việc xử lý âm thanh:
 RNN
Mạng nơ-ron hồi quy (RNN) là một công cụ mạnh mẽ được sử dụng trong xử lý
âm thanh nhờ vào khả năng của nó trong việc xử lý dữ liệu tuần tự. RNN được
tổ chức thành một chuỗi các đơn vị nơ-ron, mỗi đơn vị nhận đầu vào từ đơn vị
trước đó trong chuỗi cũng như từ đầu vào hiện tại. Điều này cho phép RNN ghi
nhớ thông tin về quá khứ, một tính chất quan trọng khi xử lý dữ liệu âm thanh,
như tiếng nói và âm nhạc.
Trong quá trình huấn luyện, dữ liệu âm thanh thường được biểu diễn dưới dạng
các tín hiệu sóng âm thanh hoặc biểu đồ âm thanh, có thể được chuyển đổi
thành dạng số hóa như biểu đồ spectrogram hoặc MFCC. Điều này giúp biểu
diễn dữ liệu âm thanh dưới dạng ma trận số hóa mà mạng RNN có thể xử lý.
Ứng dụng của RNN trong xử lý âm thanh rất đa dạng. Ví dụ, trong nhận dạng
tiếng nói, RNN có thể học các mô hình ngôn ngữ từ dữ liệu tiếng nói đầu vào
và sau đó sử dụng để nhận dạng và chuyển đổi các đoạn tiếng nói thành văn
bản. Trong nhạc số, RNN có thể được sử dụng để tạo ra âm nhạc tự động dựa
trên mẫu âm nhạc đã được huấn luyện trước.
 LSTM
Khi áp dụng LSTM vào xử lý âm thanh, LSTM có thể hiệu quả trong việc xử lý
các chuỗi dữ liệu thời gian như tín hiệu âm thanh. Một trong những ứng dụng
PAGE \* MERGEFORMAT 7
phổ biến của LSTM trong lĩnh vực này là nhận dạng tiếng nói. LSTM có khả
năng học và ghi nhớ các mẫu phức tạp trong dữ liệu âm thanh, từ đó giúp nhận
dạng và phân tích các phần của âm thanh như từ, câu, hoặc ngữ cảnh âm nhạc
đặc biệt là chuỗi âm thanh từ tiếng gõ bàn phím, vì khi nhập mật khẩu là một
chuỗi tiếng gõ bàn phím.
Mô hình LSTM bao gồm các đơn vị LSTM, mỗi đơn vị này có khả năng lưu trữ
thông tin trong một khoảng thời gian dài và chọn lọc thông tin quan trọng để
truyền tiếp cho các đơn vị tiếp theo. Điều này cho phép LSTM xử lý các chuỗi
dữ liệu âm thanh có độ dài biến đổi mà không gặp vấn đề về biến mất gradient.
 CNN
CNN là một loại mạng nơ-ron được thiết kế đặc biệt để xử lý dữ liệu không
gian như hình ảnh. Tuy nhiên, khi được áp dụng vào xử lý âm thanh, CNN có
thể phân tích các đặc trưng không gian và tần số của âm thanh một cách hiệu
quả.
Trong việc xử lý âm thanh bằng CNN, dữ liệu âm thanh thường được chia
thành các cửa sổ nhỏ tương đối và mỗi cửa sổ này được coi như một "hình ảnh"
với chiều cao và chiều rộng tương ứng với thời gian và tần số. CNN sau đó sử
dụng các bộ lọc tích chập để trích xuất các đặc trưng từ mỗi cửa sổ âm thanh,
giúp phát hiện các biến đổi tần số và cấu trúc không gian trong tín hiệu âm
thanh.
Một trong những ứng dụng phổ biến của CNN trong xử lý âm thanh là phân
loại âm nhạc và nhận dạng tiếng nói. Bằng cách sử dụng các tầng tích chập và
tầng gộp (pooling), CNN có thể học các đặc trưng hiệu quả từ dữ liệu âm thanh
và sử dụng chúng để phân loại âm nhạc vào các thể loại khác nhau hoặc nhận
dạng từ và câu trong tiếng nói.
Để xử lý âm thanh ta có thể áp dụng một số kỹ thuật sau:
 Biến đổi Fourier: Biến đổi một tín hiệu từ miền thời gian sang miền tần số.
PAGE \* MERGEFORMAT 7
Hình 1.2 - Biến đổi Fourier
 Spectrogram: Biểu diễn thời gian và tần số của âm thanh bằng cách chia nó
thành các khối nhỏ và tính toán biên độ của từng khối.

Hình 1.3 - Biến đổi Spectrogram


1.2.3. Quá trình huấn luyện và học xử lý âm thanh

Quá trình huấn luyện mô hình học sâu cho xử lý âm thanh bao gồm một số bước
sau:
 Chuẩn bị dữ liệu và xử lý dữ liệu
 Xây dựng mô hình
 Tính toán hàm mất mất (Loss function)
 Lựa chọn thuật toán tối ưu
 Đào tạo mô hình
1.3. Ứng dụng và tiềm năng

1.3.1. Mô hình học sâu và ứng dụng vào xử lý âm thanh

Trong lĩnh vực xử lý âm thanh, mô hình học sâu đã được áp dụng rộng rãi để giải
quyết các vấn đề như nhận dạng và phân biệt giọng nói, phân loại và dự đoán âm
thanh. Sự phát triển của công nghệ này đã và đang mở ra nhiều cơ hội mới trong
việc tạo ra các ứng dụng thông minh giúp ích cho nhiều hoạt động trong cuộc sống.
Một số ứng dụng tiêu biểu của học sâu vào xử lý âm thanh.
 Chuyển đổi giọng nói thành văn bản:
Mô hình học sâu có thể được sử dụng để chuyển đổi giọng nói thành văn bản
với độ chính xác cao, giúp trong các ứng dụng như chuyển đổi âm thanh
thành văn bản, trợ lý ảo, và ghi chú tự động.
 Nhận dạng ngôn ngữ:
PAGE \* MERGEFORMAT 7
Sử dụng mô hình học sâu để nhận dạng và phân loại ngôn ngữ từ các đoạn
âm thanh, hỗ trợ trong việc tạo ra các ứng dụng dịch ngôn ngữ tự động và
phân loại ngôn ngữ.
 Tạo âm thanh tự nhiên:
Mô hình học sâu cũng có thể được sử dụng để tạo ra âm thanh tự nhiên mà
không cần sự can thiệp nhiều từ con người, giúp tạo ra trải nghiệm âm thanh
chất lượng cao.
 Trong y tế:
Ứng dụng trong lĩnh vực y tế, như giám sát và phân tích các biểu hiện âm
thanh để phát hiện các vấn đề sức khỏe.
1.3.2. Lợi ích và thách thức khi áp dụng học sâu vào xử lý âm thanh

Mô hình học sâu đã mang lại nhiều lợi ích quan trọng khi áp dụng vào xử lý âm
thanh. Cụ thể, mô hình học sâu có thể được sử dụng để tạo ra tín hiệu âm thanh,
nhận dạng giọng nói, nhận dạng âm nhạc, và thậm chí tổng hợp giọng nói. Nó cũng
có thể được áp dụng để phân tích và hiệu chỉnh các tín hiệu âm thanh khác nhau.
Tuy nhiên, việc áp dụng mô hình học sâu vào xử lý âm thanh cũng đồng thời đặt
ra một số thách thức. Các thách thức này có thể bao gồm việc xử lý và phân tích các
tín hiệu âm thanh phức tạp, đảm bảo độ chính xác và hiệu suất của mô hình, cũng
như đảm bảo tính ổn định và đáng tin cậy của quá trình xử lý âm thanh.
Việc nghiên cứu và áp dụng mô hình học sâu vào xử lý âm thanh đòi hỏi sự hiểu
biết sâu rộng về cả lĩnh vực học sâu và xử lý âm thanh, cũng như khả năng xử lý và
phân tích dữ liệu lớn. Tuy nhiên, với sự tiến bộ trong công nghệ và nghiên cứu,
những thách thức này có thể được vượt qua để tạo ra những ứng dụng xử lý âm
thanh ngày càng tiên tiến và hiệu quả hơn.

1.4. Kết chương


Mô hình học sâu đã đóng góp quan trọng vào việc nâng cao khả năng xử lý âm
thanh và tạo ra nhiều ứng dụng đa dạng. Tuy nhiên, để phát huy tối đa hiệu suất của
chúng, cần tiếp tục nghiên cứu và đối mặt với những thách thức hiện tại, nhằm phát
triển những ứng dụng sáng tạo và có ảnh hưởng tích cực trong xã hội.

Bổ sung phần data:


1. Tìm hiểu bộ dữ liệu tín hiệu bàn phím (keyboard stroke) và xác
định các đặc trưng (features).
1.1. Data raw
Bộ dữ liệu tín hiệu bàn phím Âm thanh bàn phím được thu bằng cách:
PAGE \* MERGEFORMAT 7
 Khi người dùng gõ phím sẽ được ghi lại bằng micro (được gắn với PC) →
đầu vào của hệ thống xử lý. ⇒ Chi phí thấp, không can thiệp đến hoạt động
của máy tính. ⇒ Xảy ra hiện tượng nhiễu. Để khắc phục cần sử dụng những
tính năng lọc âm thanh.
 Dữ liệu thu được từ việc thu thập thông tin còn dựa trên môi trường, loại văn
bản được gõ.
 Âm thanh thô (data raw): Keycode (mã phím): ví dụ A → 65 Time stamp:
Thời điểm mà người dùng thực hiện hành động Sự kiện: nhấn phím (press) ,
nhả phím (release) Nếu người dùng nhấn phím A vào thời điểm 1000ms, thì
dữ liệu ghi âm thanh thô sẽ có thông tin như sau: Keycode: 65, Time stamp:
1000, Sự kiện: Press
VD: Nếu người dùng nhả phím A vào thời điểm 1500ms, thì dữ liệu ghi âm
thanh thô sẽ có thông tin như sau: Keycode: 65 Time stamp: 1500 Sự kiện:
Release
⇒ 1 số các đặc trưng: khoảng thời gian (duration) , độ trễ (lantency)
→ Một số điểm cần chú ý đến: tổng thời gian gõ, khoảng thời gian giữa các lần
gõ và kí tự (từ) bị gõ sai
1.2. Đặc trưng cấp cao:
- Tốc độ gõ (Typing Speed): ⇒ cho biết người dùng đang gõ văn bản, chat,
password
- Tốc độ gõ trung bình (Average Typing Speed): ⇒ cho biết xu hướng gõ
(nhanh / chậm)
- Thời gian giữa các phím (Inter-Key Press Time): ⇒ người dùng đang cân nhắc
/ suy nghĩ về từ / câu tiếp theo
- Thời gian giữa các từ (Inter-Word Press Time): ⇒ độ tập trung của người gõ
- Số lượng từ được gõ trong mỗi câu (Word Count per Sentence): ⇒ độ phức
tạp của nội dung
1.3. Đặc trưng cấp thấp (mang tính cụ thể hơn cấp cao)
- Thời điểm nhấn phím (Timestamp of Key Press): ⇒ phân tích, sắp xếp thứ tự
của các kí tự
- Loại phím được nhấn (Key Pressed): ⇒ Xác định phím nào được nhấn.
- Thời điểm nhấn phím liên tiếp (Duration of Key Press)
- Phím được giữ trong bao lâu (Key Hold Duration)
- Tần số phím được nhấn (Key Frequency): Số lần một phím được nhấn trong
một khoảng thời gian.
2. Đặc điểm và tính chất của âm thanh dạnh âm phổ
Âm thanh dạnh âm phổ là một dạng âm thanh được biểu diễn dưới dạng một chuỗi
các sóng âm với tần số phân bố đều trong một khoảng nhất định.
- Cấu trúc phổ âm thanh: Quang phổ của một âm thanh là biểu đồ biểu diễn sự
phân bố của năng lượng âm thanh theo tần số. Phổ âm thanh cung cấp thông
PAGE \* MERGEFORMAT 7
tin chi tiết về các thành phần tần số của âm thanh, bao gồm cả amplitud, pha
và thời gian.
- Tần số (Frequency) là một đặc điểm chính của âm thanh và đo lường bằng
đơn vị Hz (Hertz). Tần số thể hiện số lần dao động của sóng âm trong một
đơn vị thời gian. Đây là yếu tố phân biệt biệt các loại âm thanh với nhau.
- Cường độ (Intensity): Đo bằng đơn vị dB (decibel), cường độ thể hiện mức
độ mạnh yếu của âm thanh. Cường độ có mối liên hệ trực tiếp với âm lượng
mà người nghe cảm nhận được
- Băng thông (Bandwidth): Là khoảng cách giữa các tần số thấp nhất và cao
nhất mà một thiết bị có thể truyền qua một môi trường.
- Hình dạng của phổ (Spectral Shape): Phổ của một âm thanh thể hiện sự phân
bố của năng lượng ở các tần số khác nhau. Hình dạng của phổ có thể cho
biết thông tin về đặc điểm của nguồn âm thanh, chẳng hạn như tần số chủ
đạo và các thành phần bổ sung.
- Độ dài (Duration): Thời lượng của âm thanh, được đo bằng đơn vị thời gian,
ảnh hưởng đến cách mà người nghe cảm nhận và hiểu nội dung của âm
thanh.

You might also like