Professional Documents
Culture Documents
ENHANCEMENT USING
GRAPH NEURAL
NETWORKS
2
MỤC LỤC
• I. GIỚI THIỆU
3
I. GIỚI THIỆU
• Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro
trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo
hướng MVDR beamformer (sử dụng mạng neuron học sâu kết hợp với các
phép lọc trong không gian – spatial filtering)
• Bài báo đưa ra hướng tiếp cận mới: Coi mỗi kênh (micro) là một nốt (node)
trong đồ thị (graph) và sử dụng mạng end-to-end để học các tính chất của đồ
thị này.
4
II. SƠ LƯỢC VỀ GRAPH
5
III. MÔ HÌNH MẠNG END-TO-END
6
III. MÔ HÌNH MẠNG END-TO-END
• Loss function được tính trên 3 miền khác nhau là phổ biên độ, phổ phức và
waveform. Tổng sẽ có 4 hàm loss khác nhau:
7
IV. XÂY DỰNG GRAPH
• Coi M micro là M nút của đồ thị, mỗi nút này đi liền với N đặc trưng. Mỗi
nút sẽ được nối với tất cả (M-1) nút còn lại.
(10 x 2 x 1000 x 161)
(10 x 256 x 14 x 1)
(10 x 3584)
• Mỗi cạnh nối nút Vi và Vj của đồ thị đều được gán trọng số bằng cách nối 2
tensor đặc trưng của 2 nút và tổng hợp kết quả qua một hàm phi tuyến.
(3584)||(3584) mean(7168) weight (Vi,Vj)
8
IV. XÂY DỰNG GRAPH
• Xây dựng ma trận kề bằng cách chuẩn hóa sao cho trọng số của mỗi nút có
tổng bằng 1.
• Ma trận bậc của đồ thị
• Dữ liệu sau khi được xây dựng với cấu trúc graph được đưa qua các lớp GCN
có công thức:
9
V. THIẾT LẬP HUẤN LUYỆN
10
THANK YOU !
11