You are on page 1of 11

MULTI-CHANNEL SPEECH

ENHANCEMENT USING
GRAPH NEURAL
NETWORKS

2
MỤC LỤC

• I. GIỚI THIỆU

• II. SƠ LƯỢC VỀ GRAPH

• III. MÔ HÌNH MẠNG END-TO-END

• IV. XÂY DỰNG GRAPH

• V. THIẾT LẬP HUẤN LUYỆN

3
I. GIỚI THIỆU

• Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro
trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo
hướng MVDR beamformer (sử dụng mạng neuron học sâu kết hợp với các
phép lọc trong không gian – spatial filtering)

• Bài báo đưa ra hướng tiếp cận mới: Coi mỗi kênh (micro) là một nốt (node)
trong đồ thị (graph) và sử dụng mạng end-to-end để học các tính chất của đồ
thị này.

4
II. SƠ LƯỢC VỀ GRAPH

• V là tập các nút của đồ thị (node)


• E là tập các cạnh của đồ thị (edge)
• Ma trận kề (Adjacency matrix) kích thước nxn

• Ma trận bậc (Degree matrix) nxn chứa thông tin


Undirected graph G = (V, E) bậc của mỗi nút

5
III. MÔ HÌNH MẠNG END-TO-END

6
III. MÔ HÌNH MẠNG END-TO-END

• Loss function được tính trên 3 miền khác nhau là phổ biên độ, phổ phức và
waveform. Tổng sẽ có 4 hàm loss khác nhau:

7
IV. XÂY DỰNG GRAPH

• Coi M micro là M nút của đồ thị, mỗi nút này đi liền với N đặc trưng. Mỗi
nút sẽ được nối với tất cả (M-1) nút còn lại.
(10 x 2 x 1000 x 161)

(10 x 256 x 14 x 1)

(10 x 3584)
• Mỗi cạnh nối nút Vi và Vj của đồ thị đều được gán trọng số bằng cách nối 2
tensor đặc trưng của 2 nút và tổng hợp kết quả qua một hàm phi tuyến.
(3584)||(3584) mean(7168) weight (Vi,Vj)

8
IV. XÂY DỰNG GRAPH

• Xây dựng ma trận kề bằng cách chuẩn hóa sao cho trọng số của mỗi nút có
tổng bằng 1.
• Ma trận bậc của đồ thị
• Dữ liệu sau khi được xây dựng với cấu trúc graph được đưa qua các lớp GCN
có công thức:

9
V. THIẾT LẬP HUẤN LUYỆN

• Sử dụng LibriSpeech dataset bao gồm 1000h (16 kHz)


• Tiến hành mô phỏng âm thanh trong phòng với 3 kiểu theo 3 loại mảng là
linear, circular and distributed
• Với dạng distributed thì chọn ngẫu nhiên vị trí microphone trong phòng
• Thí nghiệm với M (2-4) microphones bao gồm 1 giọng nói và M-1 tín hiệu
nhiễu, được chọn ngẫu nhiên từ AudioSet và phân bố ngẫu nhiên trong phòng
• SNR của tín hiệu tổng hợp được chọn từ -7.5 – 7.5 dB.
• Dữ liệu train/ development / test được khởi tạo từ 3/2/1 phòng khác nhau

10
THANK YOU !

11

You might also like