Cmgan PDF

Machine Translated by Google
CMGAN: Metric-GAN dựa trên cấu hình cho
Tăng cường giọng nói đơn âm

Sherif Abdulatif, Ruizhe Cao, và Bin Yang Thành viên cấp cao, IEEE
Tóm tắt—Các bộ biến áp tăng cường tích chập (Bộ tuân thủ) gần đây bài phát biểu được xây dựng lại. Một nhược điểm khác của mô hình này
đã được đề xuất trong các ứng dụng miền tiếng nói khác nhau, chẳng là không gian đầu vào phong phú liên quan đến các dạng sóng thô, thường
hạn như nhận dạng giọng nói tự động (ASR) và tách giọng nói, vì
đòi hỏi phải sử dụng các khung phức hợp đồng minh tính toán sâu [14],
chúng có thể nắm bắt cả phụ thuộc cục bộ và toàn cầu. Trong bài báo
[17].
này, chúng tôi đề xuất một mạng quảng cáo ngược lại (CMGAN) dựa
trên số liệu tuân thủ để tăng cường giọng nói (SE) trong miền tần Trong miền TF, hầu hết các kỹ thuật DL hoặc dựa trên mô hình thông
số thời gian (TF). Bộ tạo mã hóa độ lớn và thông tin phổ phức tạp thường đều sử dụng thành phần cường độ trong khi bỏ qua pha. Điều này
bằng cách sử dụng các khối cấu tạo hai giai đoạn để mô hình hóa các được tính đến thành phần pha phi cấu trúc, đặt ra những thách thức đối
phụ thuộc cả về thời gian và tần số.
với các kiến trúc được sử dụng [19], [20]. Để vượt qua thách thức này,
Sau đó, bộ giải mã sẽ tách phép ước tính thành một nhánh bộ giải mã
một số cách tiếp cận tuân theo chiến lược tăng cường phổ phức tạp (phần
mặt nạ cường độ để lọc ra các biến dạng không mong muốn và một nhánh
sàng lọc phức hợp để cải thiện hơn nữa ước tính cường độ và hoàn thực và phần ảo), giúp tăng cường cả cường độ và pha [21], [22]. Tuy
toàn tăng cường thông tin về pha. Ngoài ra, chúng tôi bao gồm một nhiên, hiệu ứng bù giữa cường độ và pha thường dẫn đến ước tính cường
bộ phân biệt số liệu để giảm bớt sự không khớp của số liệu bằng cách
độ không chính xác [23]. Vấn đề này sẽ được thảo luận chi tiết trong
tối ưu hóa trình tạo đối với điểm đánh giá tương ứng. Các đánh giá
Sec. II-A. Các nghiên cứu gần đây đề xuất tăng cường độ theo sau là
khách quan và chủ quan minh họa rằng CMGAN có thể thể hiện hiệu suất
sàng lọc phổ phức tạp, điều này có thể làm giảm bớt vấn đề bù một cách
vượt trội so với các phương pháp tiên tiến nhất trong ba tác vụ nâng
cao giọng nói (khử nhiễu, loại bỏ âm vang và siêu phân giải). Ví hiệu quả [13], [24]. Hơn nữa, hàm mục tiêu thường được sử dụng trong
dụ: phân tích khử nhiễu định lượng trên bộ dữ liệu Voice Bank+DEMAND SE chỉ đơn giản là khoảng cách L p norm giữa các biểu đồ phổ ước tính
chỉ ra rằng CMGAN vượt trội so với các mô hình trước đó với biên và mục tiêu. Tuy nhiên, khoảng cách thấp hơn không phải lúc nào cũng
độ, tức là PESQ là 3,41 và SSNR là 11,10 dB.
dẫn đến chất lượng lời nói cao hơn. MetricGAN được đề xuất để khắc
phục vấn đề này bằng cách tối ưu hóa trình tạo đối với điểm số đánh
Thuật ngữ chỉ mục—Tăng cường giọng nói, học sâu, mô hình chú ý, giá mà bộ phân biệt có thể học được [11].
mạng lưới đối thủ tổng quát, bộ phân biệt số liệu.
arXiv:2209.11112v2
[cs.SD]
tháng
2022
năm
23
9
I. GIỚI THIỆU
Trong các ứng dụng giọng nói trong đời thực, chất lượng và độ rõ Ngoài ra, nhiều phương pháp sử dụng máy biến áp [25] để nắm bắt sự
TÔI
của giọng nói được cảm nhận phụ thuộc vào hiệu suất của các hệ phụ thuộc dài hạn vào dạng sóng hoặc biểu đồ phổ [13], [16], [26]. Gần
thống tăng cường giọng nói (SE) cơ bản, ví dụ: khử nhiễu giọng nói, khử đây, các bộ tuân thủ đã được giới thiệu như một giải pháp thay thế cho
âm vang và khử tiếng vọng âm thanh. Do đó, khung SE là một thành phần các máy biến áp trong ASR và các tác vụ tách giọng nói do khả năng nắm
không thể thiếu trong nhận dạng giọng nói tự động (ASR), hệ thống viễn bắt cả ngữ cảnh cục bộ và ngữ cảnh toàn cầu của chúng [27], [28]. Theo
thông và thiết bị trợ thính hiện đại [2]–[4]. Điều này thể hiện rõ qua đó, chúng cũng được sử dụng cho miền thời gian SE [18]. Theo hiểu biết
số lượng nghiên cứu ngày càng lớn liên tục cố gắng đẩy ranh giới hiệu tốt nhất của chúng tôi, các bộ tuân thủ chưa được điều tra rõ ràng cho
suất của các hệ thống SE hiện tại [5], [6]. Phần lớn các cách tiếp cận TF-domain SE.
này khai thác những tiến bộ gần đây trong kỹ thuật học sâu (DL) cũng
như các bộ dữ liệu giọng nói ngày càng có sẵn [7]–[10]. Lấy cảm hứng từ các vấn đề đã nêu và các công trình trước đó, chúng
tôi đề xuất MetricGAN (CMGAN) dựa trên bộ tuân thủ đầu tiên cho các tác
vụ tăng cường giọng nói đơn âm khác nhau. CMGAN bao gồm một trình tạo
Các kỹ thuật SE có thể được tạm phân loại thành hai họ phương pháp và một bộ phân biệt số liệu. Bộ tạo dựa trên các khối tuân thủ hai
tiếp cận nổi bật. Về mặt thời gian, việc tăng cường biểu diễn tần số giai đoạn trong miền TF, trong khi bộ phân biệt chịu trách nhiệm ước
thời gian của giọng nói (TF) (biểu đồ quang phổ) tạo thành mô hình SE tính một số liệu không thể phân biệt hộp đen. Các thành phần cường độ,
cổ điển bao gồm phần lớn các phương pháp DL dựa trên mô hình cũng như thực và ảo được ghép nối được chuyển đến bộ tạo, bao gồm bộ mã hóa với
các phương pháp DL gần đây hơn [5], [11]–[13]. Gần đây hơn, một tập hợp các khối tuân thủ hai giai đoạn, bộ giải mã mặt nạ và bộ giải mã phức
các phương pháp tiếp cận mới đã được giới thiệu để tăng cường trực tạp. Bộ mã hóa nhằm mục đích tìm hiểu một biểu diễn tính năng nhỏ gọn
tiếp dạng sóng miền thời gian giọng nói thô mà không cần bất kỳ chi của đầu vào. Bộ giải mã mặt nạ ước tính mặt nạ cho cường độ đầu vào và
phí chuyển đổi nào [14]–[18]. bộ giải mã phức hợp tinh chỉnh các phần thực và ảo.
Mỗi mô hình thể hiện những ưu điểm và nhược điểm riêng.
Mô hình miền thời gian dựa trên các mô hình tổng quát được đào tạo
để ước tính trực tiếp các đoạn của dạng sóng sạch từ các bản sao bị Để giảm độ phức tạp tính toán đáng kể của bộ tuân thủ, chúng tôi sử
biến dạng mà không có bất kỳ yêu cầu tái cấu trúc hoặc chuyển đổi miền dụng các máy biến áp đường dẫn kép [16], [26], [29] thành một khối bộ
TF nào [15], [16]. Tuy nhiên, việc thiếu biểu diễn tần số trực tiếp tuân thủ hai giai đoạn, có thể nắm bắt các phụ thuộc dọc theo chiều
cản trở các khung này nắm bắt ngữ âm lời nói trong miền tần số. Hạn thời gian và tần số. thứ nguyên tuần tự. Tóm lại, những đóng góp của
chế này thường được phản ánh dưới dạng hiện vật trong Các tác giả thuộc công việc này được tóm tắt như sau:
Viện Xử lý Tín hiệu và Lý thuyết Hệ thống, Đại học Stuttgart, Đức (e-
mail: sherif.abdulatif@iss.uni-stuttgart.de; ruizhe.cao96@gmail .com;
• Chúng tôi điều tra hiệu suất của các khối tuân thủ hai giai đoạn và
bin.yang@iss.uni-stuttgart.de).
khả năng nắm bắt các phụ thuộc về thời gian và tần số của chúng với độ
Phiên bản ngắn hơn có tại https://arxiv.org/abs/2203.15149 [1]. phức tạp tính toán tương đối thấp.
2
số 8 số 8 số 8
số 8
6 6 6 6
[kHz]
Tần
số
4 [kHz]
Tần
số
4 [kHz]
Tần
số
4 [kHz]
Tần
số
4
2 2 2 2
0 0 0 0
0,5 1 1,5 2 2,5 3 3,5 4 Thời 0,5 1 1,5 2 2,5 3 3,5 4 Thời 0,5 1 1,5 2 2,5 3 3,5 4 Thời 0,5 1 1,5 2 2,5 3 3,5 4 Thời
gian [s] gian [s] gian [s] gian [s]
(a) Bài tham khảo (b) Bản nhạc ồn ào (SNR 0 dB) (c) Hồi âm. theo dõi (τ = 0,5 s) (d) Độ phân giải thấp. theo dõi (s = 4)
Hình 1: Biểu diễn cường độ TF của giọng nói bị bóp méo đối với các tác vụ SE khác nhau, nghĩa là khử nhiễu, khử âm vang và mở rộng băng
thông (siêu phân giải). Biến τ biểu thị thời gian âm vang 60 dB và s là tỷ lệ nâng cấp băng thông.
• Chúng tôi áp dụng một bộ phân biệt chỉ số cho mạng của mình, trong khi duy trì pha nhiễu [6]. Gần đây, nhiều nghiên cứu đã chỉ
giúp cải thiện chỉ số đánh giá tương ứng mà không ảnh hưởng xấu ra tầm quan trọng của pha đối với chất lượng tiếng nói bị khử
đến các chỉ số khác. • Mô hình đề nhiễu [21], [33]. Cuối cùng, khử nhiễu giọng nói TF có thể được
xuất được thử nghiệm trên các tác vụ SE khác nhau: khử nhiễu giọng phân loại thành các phương pháp dựa trên ánh xạ và dựa trên mặt nạ.
nói, khử âm vang và mở rộng băng thông (siêu phân giải) với các Đối với các phương pháp dựa trên ánh xạ, một hàm phi tuyến tính
bộ dữ liệu liên quan và mô hình được chứng minh là vượt trội so được sử dụng để ánh xạ lời nói nhiễu thành lời nói khử nhiễu tương
với các phương pháp tiếp cận hiện đại ứng. Các phương pháp này lần đầu tiên được sử dụng trong khử nhiễu
nhất. • Một nghiên cứu cắt bỏ toàn diện xác minh tính hiệu quả của tiếng nói miền thời gian [15], [34]–[36]. Chẳng hạn, SEGAN [14]
các lựa chọn thiết kế của chúng tôi. được giới thiệu như một khung đối nghịch để ánh xạ dạng sóng
nhiễu thành một bài phát biểu khử nhiễu tương ứng. Các biến thể
II. TUYÊN BỐ VẤN ĐỀ & TÀI LIỆU LIÊN QUAN
của SEGAN cũng được đề xuất để tăng công suất của trình tạo [37]
Trong bài báo này, CMGAN được đề xuất sẽ được đánh giá trên các hoặc sử dụng thêm một miền TF bị mất để hưởng lợi từ cả hai miền
tác vụ SE khác nhau, cụ thể là khử nhiễu giọng nói, khử âm vang và [38]. Dựa trên những thử nghiệm này, các khung đối nghịch dựa
siêu phân giải. Theo đó, đối với bất kỳ môi trường âm thanh nào, trên ánh xạ khác nhau cũng được nghiên cứu về khử nhiễu giọng nói
các tác vụ SE nói trên có thể được mô hình hóa như sau: miền TF và chúng đã đạt được nhiều kết quả hứa hẹn hơn [19], [39]–
[41].
y(t) = x(t) h(t) + n(t) (1)
Mặt khác, các phương pháp dựa trên mặt nạ chủ yếu được sử dụng
trong đó y(t) là giọng nói bị bóp méo, x(t) là giọng nói rõ ràng trong miền TF với một vài thử nghiệm về khử nhiễu tiếng nói miền
được yêu cầu, n(t) là tiếng ồn xung quanh và '*' là phép toán tích thời gian [42]. Các phương pháp dựa trên mặt nạ miền TF hoạt động
chập với bộ lọc h(t). Tuy nhiên, do hạn chế về không gian, nghiên theo giả định rằng hai tín hiệu được coi là W rời rạc trực giao
cứu này sẽ tập trung vào đánh giá từng tác vụ một mình chứ không nếu các phép biến đổi Fourier thời gian ngắn (STFT) của chúng
phải các hiệu ứng chồng chất, như trong Hình 1. Do đó, để khử không trùng nhau [43]. Theo đó, có thể tách các tín hiệu bằng cách
nhiễu nền phụ gia n(t) sẽ chỉ được xem xét (Hình 1b) . Đối với khử xác định nguồn hoạt động trong mỗi đơn vị TF. Lấy cảm hứng từ hiện
âm vang (Hình 1c), bộ lọc h(t) sẽ đại diện cho bộ lọc đáp ứng xung tượng mặt nạ thính giác và nguyên tắc phân bổ độc quyền trong phân
phòng (RIR). tích cảnh thính giác [44], mặt nạ nhị phân lý tưởng (IBM) là
Cuối cùng, h(t) sẽ hoạt động như một bộ lọc thông thấp (LPF) trong phương pháp dựa trên mặt nạ đầu tiên được sử dụng trong khử nhiễu
tác vụ siêu phân giải để mô phỏng tác động của tần số lấy mẫu thấp giọng nói có giám sát [45]. Trong IBM, mặt nạ được tạo bằng cách
(Hình 1d). Các tài liệu thích hợp cho từng nhiệm vụ sẽ được trình gán giá trị 1 cho đơn vị TF nếu tỷ lệ tín hiệu trên tạp âm (SNR)
bày trong các tiểu mục sau. trong đơn vị này vượt quá ngưỡng xác định trước (lời nói bắt buộc)
và 0 nếu không (giảm nhiễu). Nói cách khác, IBM có thể được coi
A. Khử nhiễu như một bài toán phân loại nhị phân [46], [47]. Mặc dù IBM đã được
Khử nhiễu giọng nói được coi là một vấn đề tách nguồn, trong đó chứng minh là cải thiện đáng kể độ rõ của giọng nói, nhưng nó có
mục tiêu là triệt tiêu nhiễu nền n(t) và dự đoán giọng nói mong thể làm giảm chất lượng giọng nói bằng cách đưa ra các biến dạng
muốn xˆ(t) với chất lượng và độ rõ tối đa có thể. Theo đó, độ khó tiếng ồn âm nhạc [48]. Mặt nạ tỷ lệ lý tưởng (IRM) được giới thiệu
của vấn đề này sẽ phụ thuộc rất nhiều vào bản chất của cả giọng như một biện pháp khắc phục và nó có thể được xem như một phiên
nói mong muốn và tiếng ồn xung quanh. Ví dụ, tín hiệu tiếng nói bản mềm của IBM, trong đó mỗi đơn vị TF có thể nhận giá trị từ 0
rất không ổn định. Đối với thành phần tiếng ồn, nó có thể được đến 1 tùy thuộc vào công suất nhiễu và tín hiệu tương ứng [49],
chia thành các tình huống cố định (ví dụ: tiếng ồn của quạt máy [50 ]. Mặt nạ cường độ quang phổ (SMM) được coi là một biến thể
tính và điều hòa không khí) và các tình huống không cố định (ví không giới hạn của IRM [51].
dụ: tiếng lảm nhảm và tiếng ồn đường phố). Thông thường, kịch bản
thứ hai khó khăn hơn, vì trong những trường hợp này, tiếng ồn sẽ Các phương pháp dựa trên mặt nạ đã nói ở trên sẽ chỉ tăng cường
chiếm các dải tần tương tự như lời nói mong muốn [19]. độ và giữ cho pha nhiễu không bị thay đổi.
Sau đó, xử lý pha được chia thành các phương pháp tái tạo pha và
Trong tài liệu khử nhiễu tiếng nói, do tính chất không cố định khử nhiễu pha. Đối với quá trình tái tạo pha, các mạng nơ-ron sâu
của vấn đề, khám phá các biểu diễn TF của tín hiệu chồng chất để (DNN) được đào tạo để ước tính cường độ, sau đó được sử dụng để
phản ánh các thuộc tính tần số thay đổi theo thời gian của dạng tái tạo pha lặp (IPR) [52]–[55]. Đối với khử nhiễu theo pha, các
sóng là cách tiếp cận điển hình [5], [30], [31 ]. Hạn chế duy nhất tác giả trong [56] là những người đầu tiên giới thiệu mặt nạ nhạy
phát sinh từ việc khử nhiễu miền TF là biểu diễn pha không có cấu pha (PSM) như một biến thể của SMM và họ tuyên bố cải thiện đáng
trúc. Tuy nhiên, trong một thời gian dài pha được coi là không kể chất lượng giọng nói. Sử dụng IRM làm nền tảng, một phương
nhạy cảm với nhiễu [32]. pháp mặt nạ tỷ lệ lý tưởng phức tạp (cIRM) được đề xuất có thể
Do đó, nghiên cứu chủ yếu tập trung vào việc khử nhiễu cường độ
3
hoạt động trên phần thực và phần ảo, giải quyết hoàn toàn cả cường chất lượng giọng nói đạt được [69] và IRM mềm thường là phương
độ và khử nhiễu pha [21]. Tuy nhiên, do các phần thực và phần ảo pháp được ưu tiên trong trường hợp này [51], [70]–[72]. Theo đường
không nhất thiết phải dương, nên các tác giả sẽ nén cIRM bằng kích dẫn khử nhiễu, IRM được mở rộng với cIRM để bao gồm pha trong quy
hoạt tanh để thu được các giá trị trong khoảng -1 và 1. Ý tưởng trình khử âm vang [73]–[75].
về cIRM được mở rộng hơn nữa bằng cách kết hợp một mạng nơ-ron hồi Hơn nữa, các phương pháp dựa trên ánh xạ cũng được nghiên cứu
quy có giá trị phức tạp sâu ( DCCRN) và các hàm mất mát mới để ước trong việc loại bỏ tiếng nói. Ví dụ, Han et al. [52] là một trong
tính các mặt nạ có liên quan [57]. những người đầu tiên nghiên cứu ánh xạ quang phổ về khử vang bằng
cách sử dụng một mạng được kết nối đầy đủ đơn giản. Sau đó, các
Hạn chế chính đằng sau các phương pháp này là cường độ và hiệu tác giả trong [76] đã áp dụng kiến trúc U-Net (bộ mã hóa-giải mã)
ứng bù pha được thảo luận trong [23]. Trong trường hợp này, việc tích chập hoàn toàn với các kết nối bỏ qua trung gian cho nhiệm vụ này.
khử nhiễu các biểu diễn phức tạp chỉ sử dụng một tổn thất phức hợp SkipConvNet đã thay đổi kiến trúc U-Net bằng cách thay thế từng
(xử phạt các phần thực và phần ảo) sẽ hoàn toàn cung cấp cho mô kết nối bỏ qua bằng nhiều mô-đun tích chập để cung cấp cho bộ giải
hình được đào tạo một mức độ tự do nhất định trong việc ước tính mã các bản đồ tính năng trực quan [77]. Ngoài ra, một mạng dư
cường độ và pha. Vì pha không có cấu trúc và luôn khó ước tính nên rộng được giới thiệu trong [78] để xử lý các biểu diễn giọng nói
điều này có thể dẫn đến ước tính cường độ không chính xác để bù khác nhau trong miền TF, cụ thể là độ lớn của STFT, ngân hàng bộ
cho pha khó. Vấn đề này có thể được giảm thiểu bằng cách bao gồm lọc Mel và cepstrum. Một số phương pháp có thể mang lại mức tăng
cả tổn thất phức tạp và cường độ hoặc bằng các phương pháp sàng hiệu suất đáng kể bằng cách kết hợp DNN với các phương pháp thông
lọc phức tạp, về cơ bản tách vấn đề thành ước tính mặt nạ giới hạn thường như tạo chùm tia trễ và tổng và giảm âm vang muộn bằng
cho cường độ, theo sau là nhánh sàng lọc phức tạp để cải thiện hơn phép trừ quang phổ [79].
nữa cường độ và ước tính pha từ phức hợp khử nhiễu biểu diễn [13],
[24], [58]–[60]. Tuy nhiên, do các nghiên cứu gần đây đề xuất các
phương pháp dựa trên ánh xạ so với các phương pháp dựa trên mặt
nạ trước đó để ước tính phổ phức [22], [61], nên nhánh sàng lọc C. Siêu phân giải
phức hợp sẽ tuân theo cách tiếp cận dựa trên ánh xạ. Theo nghĩa Vấn đề siêu phân giải hơi khác so với các trường hợp sử dụng SE
này, mô hình có thể kết hợp các lợi ích phân mảnh của cả hai trước đây. Trong quá trình khử nhiễu và khử âm vang, giọng nói
phương pháp dựa trên mặt nạ và dựa trên ánh xạ. mong muốn có sẵn với tiếng ồn hoặc phản xạ không mong muốn chồng
lên nhau và nhiệm vụ là triệt tiêu các hiệu ứng này trong khi vẫn
giữ nguyên giọng nói. Ngược lại, độ phân giải siêu cao sẽ xây
dựng lại các mẫu bị thiếu từ tín hiệu đầu vào có tần số lấy mẫu
thấp. Theo đó, vấn đề này có thể được hình thành từ hai quan điểm
B. Phản âm
khác nhau dựa trên miền đầu vào. Trong miền thời gian, vấn đề liên
Trong môi trường âm thanh kín, âm thanh được coi là sự chồng quan chặt chẽ đến độ phân giải siêu cao trong ảnh tự nhiên [80],
chất của ba thành phần riêng biệt: đường dẫn trực tiếp, phản xạ trong đó nhiệm vụ là lấy mẫu ngược tín hiệu đầu vào của K × 1 mẫu
sớm và âm vang muộn, có thể được mô hình hóa bằng bộ lọc RIR phức thành tín hiệu đầu ra của M × 1 mẫu (K <M) . Trong trường hợp này,
tạp h (t) trong biểu thức. 1 [62], [63]. Do đó, khử âm vang tiếng một DNN có thể được huấn luyện cho nhiệm vụ nội suy. Mặt khác, đối
nói sẽ chủ yếu tập trung vào việc triệt tiêu các phản xạ không với miền TF, nhiệm vụ sẽ giống với việc vẽ hình ảnh tự nhiên [81],
mong muốn và duy trì đường dẫn trực tiếp biểu diễn tiếng nói mong trong đó một phần của hình ảnh hoặc ảnh phổ bị thiếu và DNN được
muốn ước tính xˆ(t). Các phản xạ ban đầu thường đến micrô trong đào tạo để hoàn thành hình ảnh hoặc tái tạo lại các dải tần số cao
thời gian ngắn (50 ms) khi chúng đến từ một hướng cụ thể, do đó bị thiếu, như được hiển thị trong Hình 1a và 1d. Dựa trên mô tả
chúng có thể được xử lý như một bản sao suy giảm của đường dẫn trước đó, có thể suy luận rằng dựa trên ánh xạ là cách tiếp cận
trực tiếp. Ngược lại, âm vang muộn đến muộn hơn vì chúng đại diện phù hợp duy nhất trong siêu phân giải.
cho các tín hiệu chồng chất bị trễ và suy giảm từ các hướng khác
nhau. Khó khăn của vấn đề xác định chính xác được tính đến các Trong xử lý âm thanh thông thường, siêu phân giải đã được nghiên
yếu tố khác nhau. Ví dụ, kích thước phòng và tính chất bề mặt góp cứu dưới tên mở rộng băng thông [82]. Gần đây, các nghiên cứu
phần chủ yếu vào lượng phản xạ và mức độ suy giảm [64]. siêu phân giải âm thanh dựa trên DL đã chứng minh hiệu suất vượt
trội so với các phương pháp truyền thống. Năm 2017, Kuleshov et
Ngoài ra, khoảng cách giữa micrô và người nói sẽ ảnh hưởng đến al. [83] đã đề xuất sử dụng U-Net với kiến trúc bỏ qua kết nối để
cường độ phản xạ, nghĩa là khoảng cách càng xa thì phản xạ càng tái tạo lại dạng sóng. TFiLM [85] và AFiLM [86] đã sử dụng các mô
mạnh [65]. hình lặp lại và các khối chú ý để nắm bắt các phụ thuộc thời gian
Theo hiểu biết tốt nhất của chúng tôi, vấn đề khử vang thường trong phạm vi dài, tương ứng. Tuy nhiên, việc thiếu các thành
được giải quyết trong miền TF với các thử nghiệm hạn chế trên phần tần số sẽ hạn chế những cải tiến hơn nữa về hiệu suất. TFNet
miền thời gian [17], [66]. Điều này là do thực tế là các mô hình [84] đã sử dụng cả miền thời gian và tần số bằng cách sử dụng hai
miền thời gian dễ bị biến dạng thời gian, điều này rất nghiêm nhánh, một nhánh mô hình hóa việc tái tạo độ lớn quang phổ và
trọng trong điều kiện âm vang. Tương tự như khử nhiễu, các phương nhánh còn lại mô hình hóa dạng sóng. Tuy nhiên, thông tin về pha
pháp dựa trên mặt nạ miền TF cũng được mở rộng để loại bỏ âm vang. bị bỏ qua trong nhánh tần số. Vương và cộng sự. [87] đã đề xuất
Ví dụ, trong [67], đường dẫn trực tiếp và phản xạ sớm được coi là bộ mã hóa tự động sửa đổi miền thời gian (AE) và chức năng mất
bài phát biểu mong muốn và IBM được sử dụng để triệt tiêu âm vang miền chéo để tối ưu hóa khung kết hợp.
muộn. Không giống như khử nhiễu, tiêu chí SNR ria để gán 0 và 1
trong mỗi đơn vị TF được sửa đổi trong [68] để giải quyết xác suất Gần đây, các tác giả trong [88] đã đề xuất một khung dựa trên bộ
hiện diện giọng nói. Tuy nhiên, IBM ban đầu được xác định cho phát âm thần kinh (NVSR) cho nhiệm vụ siêu phân giải. Trong khi
tiếng ồn phụ gia trong điều kiện không phản xạ. các nghiên cứu trên cho thấy kết quả đầy hứa hẹn, nhiều nghiên cứu
Trong âm vang, hiện tượng nhòe tạm thời của lời nói được quan sát trong số đó tập trung vào các biểu diễn cường độ miền thời gian
thấy trong biểu diễn TF kết quả, như trong Hình 1c. Do đó, IBM với hoặc miền thời gian hỗn hợp và miền TF. Tuy nhiên, nghiên cứu về
các ranh giới cứng rắn có thể gây ra sự xuống cấp trong siêu phân giải miền TF phức tạp vẫn chưa được giải quyết.
4
(b) Bộ tuân thủ hai giai đoạn (TS-Conformer)
(a) Kiến trúc bộ tạo mã hóa-giải mã (c) Bộ phân biệt số liệu
Hình 2: Tổng quan về kiến trúc CMGAN được đề xuất
III. PHƯƠNG PHÁP một cách hiệu quả trong khi bảo quản số lượng hạt nhân và lớp.
A. Cấu trúc máy phát điện Khối tích chập cuối cùng chịu trách nhiệm giảm một nửa chiều tần
số thành F = F/2 để giảm độ phức tạp.
Tổng quan về kiến trúc bộ tạo của CMGAN là
L×1
thể hiện trong hình 2a. Đối với dạng sóng lời nói bị , 2) Khối tuân thủ hai giai đoạn: Khối tuân thủ [27], [28] đã
biến dạng y R, thao tác STFT trước tiên sẽ chuyển đổi đạt được thành công lớn trong nhận dạng và tách giọng nói khi
T×F×2
, tạp Yo
dạng sóng thành một phổ phức R trong đó T và F chúng kết hợp các ưu điểm của cả máy biến áp và mạng thần kinh
lần lượt biểu thị kích thước thời gian và tần số. Sau đó, tích chập (CNN). Máy biến áp có thể nắm bắt các phụ thuộc đường
phổ nén Y thu được bằng cách nén định luật lũy thừa: = dài, trong khi CNN khai thác các tính năng cục bộ một cách hiệu
quả. Ở đây, chúng tôi sử dụng tuần tự hai khối tuân thủ để nắm
jYp
Y = |I| c Nó là
Yme jYp = Yr + jYi (2) bắt sự phụ thuộc thời gian trong giai đoạn đầu tiên và sự phụ
thuộc tần số trong giai đoạn thứ hai. Như được hiển thị
trong đó Ym, Yp, Yr và Yi lần lượt biểu thị độ lớn, pha, thành B×T×F×C
trong Hình 2b, được cung cấp một bản đồ tính năng D ,
phần thực và ảo của ảnh phổ nén. c là số mũ nén nằm trong BF×T×C
R Bản đồ tính năng đầu vào D trước tiên được định hình lại
khoảng từ 0 đến 1, ở đây chúng tôi theo dõi Braun et al. [89]
thành DT R để nắm bắt sự phụ thuộc thời gian trong khối tuân thủ đầu tiên.
để đặt c = 0,3.
Sau đó, DT đầu ra đượcÔ bổ sung theo từng phần tử với DT đầu vào
Việc nén cường độ theo định luật lũy thừa cân bằng tầm quan trọng
(kết nối dư) và được định hình lại thành bản đồ tính năng mới DF
của âm thanh nhỏ hơn so với âm thanh lớn, gần với nhận thức của BT×F×C
R Bộ tuân thủ thứ .
hai do đó nắm bắt được sự phụ thuộc tần số.
con người hơn về âm thanh [90], [91]. Phần thực và phần ảo Yr và
Sau khi kết nối còn lại, đầu ra cuối cùng Do được định hình lại
Yi sau đó được nối với độ lớn Ym như một đầu vào của bộ tạo.
về kích thước đầu vào.
B×T×F×3
1) Bộ mã hóa: Với tính năng đầu vào Yin R , Tương tự như [27], mỗi khối tuân thủ sử dụng hai mạng thần
trong đó B biểu thị kích thước lô, bộ mã hóa bao gồm hai khối kinh chuyển tiếp nguồn cấp dữ liệu nửa bước (FFNN). Giữa hai
tích chập với DenseNet [92] giãn nở ở giữa. FFNN, một mô-đun tự chú ý nhiều đầu (MHSA) với bốn đầu được sử
Mỗi khối tích chập bao gồm một lớp tích chập, chuẩn hóa phiên bản dụng, theo sau là mô-đun tích chập. Mô-đun tích chập được mô tả
[93] và kích hoạt PReLU [94]. Khối tích chập đầu tiên được sử trong Hình 2b bắt đầu bằng quá trình chuẩn hóa lớp, lớp tích chập
dụng để mở rộng ba tính năng đầu vào thành bản đồ tính năng trung theo điểm và kích hoạt đơn vị tuyến tính có kiểm soát (GLU) để
gian với các kênh C. DenseNet mở rộng chứa bốn khối tích chập với giảm thiểu vấn đề độ dốc biến mất. Sau đó, đầu ra của GLU được
phần dư dày đặc chuyển đến lớp tích chập theo chiều sâu 1D với chức năng kích
các kết nối, các hệ số giãn nở của mỗi khối được đặt thành {1, 2, hoạt mạnh mẽ, sau đó là một lớp tích chập theo điểm khác. Cuối
4, 8}. Các kết nối dày đặc có thể tổng hợp tất cả các bản đồ tính cùng, một lớp bỏ học được sử dụng để chuẩn hóa mạng. Ngoài ra,
năng trước đó để trích xuất các cấp độ tính năng khác nhau. Đối một đường dẫn còn lại kết nối đầu vào với đầu ra.
với các kết cấu giãn nở, chúng phục vụ để tăng lĩnh vực tiếp nhận
5
3) Bộ giải mã: Bộ giải mã trích xuất đầu ra từ N khối tuân thủ khối, tổng hợp trung bình toàn cầu được theo sau bởi hai lớp
hai giai đoạn theo cách tách rời, bao gồm hai đường dẫn: bộ giải chuyển tiếp nguồn cấp dữ liệu và kích hoạt sigmoid. Bộ phân
mã mặt nạ và bộ giải mã phức tạp. Bộ giải mã mặt nạ nhằm mục đích biệt sau đó được đào tạo để ước tính điểm PESQ chuẩn hóa tối
dự đoán mặt nạ sẽ được nhân theo từng phần tử với cường độ đầu vào đa (= 1) bằng cách lấy cả hai đầu vào dưới dạng cường độ
Ym để dự đoán Xˆ Mặt khác, bộ giải mã phức dự đoán trực tiếp
m. các sạch. Ngoài ra, bộ phân biệt đối xử được đào tạo để ước tính
phần thực và phần ảo. Cả bộ giải mã mặt nạ và bộ giải mã phức tạp điểm PESQ nâng cao bằng cách lấy cả phổ sạch và phổ nâng cao
đều bao gồm một DenseNet được mở rộng, tương tự như bộ giải mã làm đầu vào cùng với nhãn PESQ tương ứng của chúng, như trong
trong bộ mã hóa. Lớp tích chập pixel phụ được sử dụng trong cả hai Hình 4b. Mặt khác, trình tạo được đào tạo để hiển thị lời
đường dẫn để lấy mẫu ngược chiều tần số trở lại F [95]. Đối với bộ nói nâng cao giống như lời nói sạch, do đó tiếp cận nhãn PESQ
giải mã mặt nạ, một khối tích chập được sử dụng để ép số kênh thành là 1, như trong Hình 4c.
1, tiếp theo là một lớp tích chập khác có kích hoạt PReLU để dự
đoán mặt nạ cuối cùng. Lưu ý rằng kích hoạt PreLU học các độ dốc
C. Mất chức năng Lấy
khác nhau cho từng dải tần số và ban đầu các độ dốc được xác định
là một giá trị dương cố định (0,2). Đánh giá sau đào tạo chỉ ra cảm hứng từ Braun et al. [89], chúng tôi sử dụng tổ hợp tuyến tính của độ suy
rằng tất cả các sườn phản ánh các giá trị âm khác nhau, nghĩa là hao LMag. và LRI tổn thất phức tạp trong miền TF: LTF = αLMag. + (1 α)LRI
mặt nạ đầu ra luôn được chiếu ở góc phần tư dương và góc phần tư
LMag. = EXm,Xˆm Xm Xˆm 2 LRI =
thứ 2 , như được mô tả trong Hình 3. Đối với bộ giải mã phức hợp
st
1, kiến trúc giống hệt với bộ giải mã mặt nạ , ngoại trừ không EXr,Xˆr Xr Xˆ
(5)
có hàm kích hoạt nào được áp dụng cho đầu ra phức tạp. 2 2
r
+ EXi,Xˆi Xi Xˆ
Tôi
Tương tự như trong [13], [24], cường độ che khuất Xˆ trước

tôi
tiên trong đó α là trọng số đã chọn. Dựa trên tìm kiếm dạng lưới, α =
được kết hợp với pha nhiễu Yp để thu được phổ phức tạp tăng cường 0,7 dẫn đến hiệu suất tốt nhất. Tương tự như các GAN bình phương
độ. Sau đó, nó được cộng theo từng phần tử với đầu ra của bộ giải nhỏ nhất [98], quá trình huấn luyện đối thủ tuân theo nhiệm vụ
mã phức (Xˆ ) để thu được phổ phức cuối cùng: Xˆ tối ưu hóa tối thiểu đối với tổn thất phân biệt LD và tổn thất
r , Tôi
trình tạo tương ứng LGAN được biểu thị như sau:
2
Xˆ Xˆ (3)
r = Xˆ mcos(Yp) + Xˆ r Tôi = Xˆ msin(Yp) + Xˆ Tôi
LGAN = EXm,Xˆm D(Xm, Xˆm) 1 LD = EXm D(Xm,
2
Xm) 1 + EXm,Xˆm D(Xm, Xˆm) QPESQ (6)
Sau đó, quá trình nén định luật lũy thừa được đảo ngược trên biểu
2
đồ phổ phức (Xˆ r, Xˆ i) và dạng chuyển đổi Fourier thời gian ngắn
trong đó D là điểm phân biệt và QPESQ là điểm
nghịch đảo (ISTFT) được áp dụng để thu được tín hiệu miền thời gian
xˆ, như thể hiện trong Hình 4a. Để cải thiện hơn nữa thành phần độ PESQ chuẩn hóa . Ở đây chúng tôi chuẩn hóa điểm PESQ thành phạm vi [0,1]. Hơn
lớn và lan truyền suy hao độ lớn trên cả hai nhánh bộ giải mã, nữa, một hình phạt bổ sung trong dạng sóng kết quả LTime được chứng minh là cải
chúng tôi tính toán độ suy hao trên Xˆm được biểu thị bằng: thiện chất lượng giọng nói được khôi phục [20]:
Xˆm = Xˆ 2 r + Xˆ 2 Tôi
(4)
LThời gian = Ex,xˆ x xˆ1

(7)
B. Bộ phân biệt số liệu
trong đó xˆ là dạng sóng nâng cao và x là dạng sóng mục tiêu
Trong SE, các hàm mục tiêu thường không liên quan trực sạch. Tổn thất máy phát cuối cùng được tính như sau:
tiếp đến các số liệu đánh giá. Do đó, ngay cả khi tối ưu hóa
tổn thất khách quan, điểm đánh giá vẫn không thỏa mãn. Hơn LG = g1 LTF + g2 LGAN + g3 LThời gian (số 8)
nữa, một số chỉ số đánh giá như đánh giá cảm quan về chất
trong đó γ1, γ2 và γ3 là trọng số của các tổn thất tương ứng và chúng được chọn
lượng giọng nói (PESQ) [96] và độ rõ mục tiêu trong thời
để phản ánh mức độ quan trọng như nhau.
gian ngắn (STOI) [97] không thể được sử dụng làm hàm mất mát
vì chúng không thể phân biệt được. Do đó, bộ phân biệt đối
IV. THÍ NGHIỆM
xử trong CMGAN nhằm mục đích bắt chước điểm số và sử dụng nó
như một phần của hàm mất mát. Ở đây, chúng tôi tuân theo A. Bộ dữ liệu
MetricGAN để sử dụng điểm PESQ làm nhãn [11]. Như được hiển
1) Khử nhiễu: Chúng tôi điều tra phương pháp được đề xuất của
thị trong Hình 2c, bộ phân biệt đối xử bao gồm 4 khối tích
mình trên bộ dữ liệu Voice Bank+DEMAND có sẵn công khai thường được
chập. Mỗi khối bắt đầu với một lớp tích chập, tiếp theo là sử dụng [7]. Các rãnh rõ ràng được chọn từ kho ngữ liệu Voice Bank
chuẩn hóa phiên bản và kích hoạt PReLU. Sau tích chập
[99] bao gồm 11.572 cách phát biểu từ 28 người nói trong tập huấn
luyện và 872 cách phát biểu từ 2 người nói không nhìn thấy trong tập
thử nghiệm. Trong tập huấn luyện, các phát ngôn rõ ràng được trộn
1 1
lẫn với tiếng ồn nền (8 loại tiếng ồn từ cơ sở dữ liệu DEMAND [100]
và 2 loại tiếng ồn nhân tạo) ở SNR là 0 dB, 5 dB, 10 dB và 15 dB.
Trong bộ thử nghiệm, các phát ngôn rõ ràng được trộn lẫn với 5 loại
tiếng ồn không nhìn thấy được từ cơ sở dữ liệu DEMAND ở SNR là 2,5
dB, 7,5 dB, 12,5 dB và 17,5 dB. Các loại tiếng ồn chủ yếu là thách
thức, ví dụ như tiếng ồn không gian công cộng (quán cà phê, nhà hàng
1 1 1 1 và văn phòng), tiếng ồn trong nhà (nhà bếp và phòng khách) và tiếng
(a) Trước khi đào tạo (b) Sau khi đào tạo
ồn giao thông/đường phố (ô tô, tàu điện ngầm, xe buýt, giao thông
đông đúc, quảng trường công cộng và ga tàu điện ngầm). Tất cả các
Hình 3: Độ dốc PReLU của mặt nạ độ lớn kết quả. cách nói được lấy mẫu lại thành 16 kHz trong các thử nghiệm của chúng tôi.
6
(b) Mất phân biệt đối xử
(c) Tổn thất máy phát đối nghịch

(a) Tổn thất máy phát điện không đối nghịch
Hình 4: Minh họa về các hàm suy hao lan truyền trong kiến trúc CMGAN. Để đơn giản, X và Xˆ lần lượt biểu thị cường độ ba kênh và biểu diễn
phức tạp của mục tiêu sạch và phổ đầu ra ước tính.
2) Khử âm vang: Chúng tôi chọn bộ dữ liệu thử thách REVERB [8], 32, 64, 128}. Trong giai đoạn đào tạo, trình tối ưu hóa AdamW [106]
các phát ngôn được chia thành bản ghi mô phỏng và bản ghi thực. Dữ được sử dụng cho cả bộ tạo và bộ phân biệt đối xử để đào tạo trong
liệu mô phỏng dựa trên kho văn bản tạp chí phố Wall (WSJCAM0) [101] 50 kỷ nguyên. Tỷ lệ học tập được đặt thành 5×10 4 cho bộ tạo và
bị biến dạng bởi RIR đo được và tiếng ồn xung quanh cố định SNR = 1×10 3 cho bộ phân biệt. Bộ lập lịch tỷ lệ học tập được áp dụng
20 dB. RIR đo được đại diện cho ba kích thước phòng khác nhau: nhỏ với hệ số phân rã là 0,5 cứ sau 12 kỷ nguyên. Trong tổn thất máy
– phòng 1, trung bình – phòng 2 và lớn – phòng 3, với thời gian âm phát điện LG, các trọng số được đặt thành {γ1 = 1, γ2 = 0,01, γ3 =
vang 60 dB (τ ) lần lượt là 0,3, 0,6 và 0,7 giây. 1}. Mẫu âm thanh và triển khai CMGAN có sẵn trực tuyến1
.
Đối với mỗi phòng, micro được đặt ở điều kiện gần (0,5 m) và điều
V. KẾT QUẢ VÀ BÀN LUẬN
kiện xa (2 m). Dữ liệu thực dựa trên kho văn bản nghe nhìn (MC-WSJ-
A. Khử nhiễu
AV) tạp chí đa kênh Wall Street Journal [102], trong đó các diễn
giả đang ghi âm trong một căn phòng lớn với tốc độ τ = 0,7 giây ở Điểm mục tiêu: Chúng tôi chọn một tập hợp các số liệu thường
khoảng cách gần (1 m) và điều kiện micrô xa (2,5 m). Tập huấn luyện được sử dụng để đánh giá chất lượng giọng nói được khử nhiễu, tức
bao gồm 7861 cách nói được ghép nối từ dữ liệu mô phỏng. Bộ kiểm là PESQ với phạm vi điểm từ -0,5 đến 4,5, tỷ lệ tín hiệu trên tạp
tra chứa cả các cách phát âm được ghép nối mô phỏng (2176) và các âm phân đoạn (SSNR) và điểm ý kiến trung bình tổng hợp ( MOS) [107]
cách phát âm có âm vang thực (372). dựa trên số liệu: Dự đoán MOS về biến dạng tín hiệu (CSIG), dự đoán
Các bản ghi phòng khác nhau được sử dụng cho tập huấn luyện và kiểm MOS về mức độ xâm nhập của tiếng ồn xung quanh (CBAK) và dự đoán
tra. Các bộ dữ liệu ban đầu được thu thập ở cấu hình một kênh, hai MOS về hiệu ứng tổng thể (COVL), tất cả chúng đều nằm trong phạm vi
kênh và tám kênh với tần số lấy mẫu 16 kHz. Tuy nhiên, trong phạm điểm 1 đến 5. Ngoài ra, chúng tôi sử dụng STOI với phạm vi điểm từ
vi nghiên cứu này, chúng tôi chỉ sử dụng cấu hình đơn kênh. 0 đến 1 để đánh giá mức độ dễ hiểu của lời nói. Giá trị cao hơn cho
thấy hiệu suất tốt hơn đối với tất cả các số liệu nhất định.
3) Siêu phân giải: Để phân tích so sánh, chúng tôi sử dụng ngữ
liệu đa người nói tiếng Anh (VCTK) [103]. Bộ dữ liệu VCTK chứa các Phân tích kết quả: CMGAN đề xuất của chúng tôi được so sánh một
bản ghi 44 giờ từ 108 người nói với nhiều giọng Anh khác nhau. Đối cách khách quan với các đường cơ sở khử nhiễu hiện đại (SOTA) khác,
với thử nghiệm độ phân giải siêu cao, chúng tôi tuân theo lựa chọn như thể hiện trong Bảng I. Đối với các phương pháp trong miền thời
thiết kế của [83], trong đó tín hiệu âm thanh có độ phân giải thấp gian, chúng tôi đã bao gồm SEGAN tiêu chuẩn [14] và ba phương pháp
được tạo ra từ các rãnh gốc 16 kHz bằng cách lấy mẫu con tín hiệu gần đây : TSTNN [16], DEMUCS [17] và SE-Conformer [18]. Đối với các
với (các) tỷ lệ nâng cấp mong muốn. phương pháp miền TF, chúng tôi đánh giá sáu phương pháp SOTA gần
Tác vụ đầu tiên sử dụng một loa VCTK duy nhất (p225), 223 bản ghi đây, tức là, MetricGAN [11], PHASEN [12], PFPL [104], Metric GAN+
đầu tiên được sử dụng để đào tạo và 8 bản ghi cuối cùng được sử [105], DB-AIAT [13] và DPT-FSNet [26] . Có thể nhận thấy rằng hầu
dụng để thử nghiệm. Nhiệm vụ thứ hai lấy 100 người nói VCTK đầu hết các phương pháp miền TF vượt trội so với các đối tác miền thời
tiên làm tập huấn luyện và kiểm tra 8 người nói cuối cùng. gian trên tất cả các số liệu được sử dụng. Hơn nữa, cách tiếp cận
Tỷ lệ nâng cấp cho cả tác vụ một loa và nhiều loa được đặt thành dựa trên bộ tuân thủ TF được đề xuất của chúng tôi cho thấy một cải
{2, 4, 8}, thể hiện sự tái tạo từ 8 kHz, 4 kHz, 2 kHz đến 16 kHz. tiến lớn so với Bộ tuân thủ SE miền thời gian. So với các khung
liên quan đến bộ phân biệt số liệu (MetricGAN+), chúng tôi có các
cải tiến lần lượt là 0,26, 0,49, 0,78 và 0,48 đối với điểm số PESQ,
B. Thiết lập thử nghiệm CSIG, CBAK và COVL. Cuối cùng, khung của chúng tôi cũng vượt trội
Các cách nói trong tập huấn luyện được cắt thành 2 giây, trong so với các phương pháp dựa trên máy biến áp được cải tiến gần đây,
chẳng hạn như DB-AIAT và DPT-FSNet trong tất cả các điểm đánh giá
khi ở tập kiểm tra, không sử dụng phép cắt và độ dài được giữ
nguyên. Một cửa sổ Hamming với độ dài cửa sổ 25 ms (400 điểm FFT) với kích thước mô hình tương đối thấp chỉ 1,83 M tham số.
và kích thước bước nhảy là 6,25 ms (chồng lấp 75%) được sử dụng. Do
đó, phổ kết quả sẽ có 200 ngăn tần số F, trong khi kích thước thời Nghiên cứu cắt bỏ: Để xác minh các lựa chọn thiết kế của chúng
gian T phụ thuộc vào thời lượng theo dõi thay đổi. Số khối tuân thủ tôi, một nghiên cứu cắt bỏ được tiến hành, như thể hiện trong Bảng
hai giai đoạn N, kích thước lô B và số kênh C trong trình tạo được II. Đầu tiên chúng tôi điều tra ảnh hưởng của các yếu tố đầu vào
đặt lần lượt là 4, 4 và 64. Số kênh trong bộ phân biệt số liệu được khác nhau. Chỉ cường độ biểu thị rằng chỉ cường độ được sử dụng làm
đặt thành {16, đầu vào và cường độ nâng cao sau đó được kết hợp với pha nhiễu cho ISTFT
1https://github.com/ruizhecao96/CMGAN/
7
BẢNG I: So sánh hiệu suất trên bộ dữ liệu Voice Bank+DEMAND [7]. “-” biểu thị kết quả không được cung cấp trong bài báo gốc. Kích thước
mô hình đại diện cho số lượng tham số có thể đào tạo tính bằng triệu.
Phương pháp Đầu vào năm Cỡ mẫu (M) PESQ CSIG CBAK COVL SSNR STOI
- - - 1,97 3,35 2,44 2,63 1,68 0,91
Ồn ào
NHỤC [14] Thời gian 2017 97,47 2,16 3,48 2,94 2,80 7,73 0,92
- 2,86 3,99 3,18 3,42 - -
Số liệuGAN [11] độ lớn năm 2019
- 2,99 4,21 3,55 3,62 10,08 -
GIAI ĐOẠN [12] 2020 Cường độ+Pha
TSTNN [16] Thời gian 2021 0,92 2,96 4,10 3,77 3,52 9,70 0,95
Thời gian 2021 128 3,07 4,31 3,40 3,63 - 0,95
ĐẠO ĐỨC [17]
- 3,15 4,18 3,60 3,67 - 0,95
PFPL [104] Tổ hợp 2021
- 3,15 4,14 3,16 3,64 - -
MetricGAN+ [105] 2021 Độ lớn
- 3,13 4,45 3,55 3,82 - 0,95
SE-Conformer [18] 2021 Thời gian
DB-AIAT [13] 2021 Độ phức tạp + Độ lớn 2,81 3,31 4,61 3,75 3,96 10,79 0,96
DPT-FSNet [26] 0,91 3,33 4,58 3,72 4,00 - 0,96
Tổ hợp 2021
CMGAN 2022 Độ phức tạp + Độ lớn 1,83 3,41 4,63 3,94 4,12 11.10 0,96
hoạt động. Kiến trúc mạng vẫn giữ nguyên, ngoại trừ bộ giải mã trình tạo hoàn toàn có khả năng tăng cường các bản nhạc mà không
phức tạp bị loại bỏ. Tương ứng, Phức tạp chỉ biểu thị chỉ phổ phổ cần sự trợ giúp của bộ phân biệt bản vá thông thường. Tuy nhiên,
phức tạp được sử dụng làm đầu vào và bộ giải mã mặt nạ bị loại bỏ. một công cụ phân biệt số liệu để trực tiếp cải thiện điểm đánh giá
So sánh cho thấy rằng việc thiếu tăng cường pha sẽ làm giảm điểm đã được chứng minh là có lợi.
PESQ xuống 0,18, trong khi sử dụng phổ phức hợp thuần túy sẽ làm Hơn nữa, chúng tôi điều tra ảnh hưởng của phác thảo tuân thủ
giảm điểm SSNR xuống 1,91 dB. Kết quả này chỉ ra rằng mặc dù biểu hai giai đoạn. Đưa ra một bản đồ tính năng đầu vào, bộ tuân thủ
đồ phổ phức tạp chứa thông tin về cường độ, nhưng đó là một thách hai giai đoạn sẽ tập trung riêng vào thứ nguyên thời gian và tần
thức đối với khung được sử dụng để tăng cường cường độ một cách số. Cuối cùng, hai cấu hình khác nhau có thể được đề xuất, tuần tự
hoàn toàn. Hơn nữa, giải quyết rõ ràng cường độ trong các hàm tổn hoặc song song. Theo đó, chúng tôi so sánh CMGAN tuần tự của mình
thất sẽ giảm thiểu hiệu ứng bù được nêu trong Sec. II-A. Ngoài với bộ đếm kết nối song song mà không cần sửa đổi thêm (Parallel-
ra, để xác thực cách tiếp cận dựa trên ánh xạ đã chọn trong nhánh Conformer).
sàng lọc phức tạp, chúng tôi giữ nguyên bộ giải mã mặt nạ và sửa Kết quả minh họa rằng cách tiếp cận song song đứng sau trình tự
đổi bộ giải mã phức hợp để bao gồm một cIRM tương tự như [21]. So được đề xuất, nghĩa là điểm số PESQ và SSNR giảm lần lượt là 0,06
sánh giữa CMGAN-cIRM và CMGAN cho thấy điểm số của cả PESQ và SSNR và 0,47 dB. Ngoài ra, chúng tôi đã đảo ngược thứ tự của các khối
đều giảm đáng kể. tuân thủ tuần tự (Tần số Thời gian) và chúng tôi có thể kết luận
rằng điểm số là tương tự với một cải tiến nhỏ có lợi cho CMGAN
tiêu chuẩn (Thời gian Tần số). Lưu ý rằng về mặt lý thuyết, việc
Mặt khác, kết quả cho thấy rằng việc không mất thời gian (không thiết kế một bộ tuân thủ duy nhất để tham gia theo cả thời gian và
mất thời gian) cải thiện hơn nữa điểm số PESQ lên 3,45, trong khi tần suất. Tuy nhiên, trong trường hợp này, độ phức tạp sẽ tăng
SSNR thấp hơn một chút so với CMGAN ban đầu. Điều này cho thấy theo cấp số nhân [109]. Để chứng minh yêu cầu tách bộ giải mã
hiệu quả của việc mất thời gian trong việc cân bằng hiệu suất cho trong sàng lọc phức tạp, chúng tôi thay thế bộ giải mã mặt nạ/phức
cả điểm số PESQ và SSNR. tạp ban đầu bằng bộ giải mã một đường dẫn. Đầu ra cuối cùng sẽ đại
Chúng tôi đã tiến hành hai thử nghiệm để chứng minh lựa chọn bộ diện cho ba kênh, kênh đầu tiên được theo sau bởi kích hoạt PReLU
phân biệt: loại bỏ bộ phân biệt (không có Đĩa) và thay thế bộ phân (độ lớn) và không có kích hoạt nào được cung cấp cho hai kênh còn
biệt số liệu bằng một bộ phân biệt bản vá, thường được sử dụng lại (phức tạp). So sánh bộ giải mã đường đơn với bộ giải mã mặt nạ/
trong các tác vụ tạo hình ảnh [108]. Có thể nhận ra rằng việc loại phức cho thấy sự xuống cấp trong tất cả các chỉ số, đặc biệt là
bỏ bộ phân biệt đối xử đã tác động tiêu cực đến tất cả các điểm số điểm SSNR (0,91 dB).
đã cho. Tương tự như vậy, việc thêm một bộ phân biệt bản vá chỉ
cho thấy một sự cải thiện nhỏ, điều này phản ánh rằng Tài liệu sơ bộ chủ yếu giả định mặt nạ độ phóng đại dự đoán nằm
trong khoảng từ 0 đến 1. Do đó, kích hoạt sigmoid thường là kích
BẢNG II: Kết quả của nghiên cứu giảm nhiễu.
hoạt ưa thích để phản ánh khoảng này [11]– [13], [57], [105]. Mặc
Phương pháp PESQ CSIG CBAK COVL SSNR STOI dù điều này là đúng, nhưng một hàm sigmoid bị chặn sẽ hạn chế mô
hình phân bổ các giá trị trong khoảng từ 0
CMGAN 3,41 4,63 3,94 4,12 11,10 0,96
Chỉ cường độ 3,23 4,60 3,76 4,00 9,82 0,95 Chỉ phức tạp
3,35 4,56 3,79 4,05 9,19 0,96 CMGAN-cIRM 3,28 4,60 3,83
4,03 10,40 0,96 w/o Mất thời gian 3,45 4,56 3,86 4,11
9,71 0,96 không có Đĩa . 3,24 4,46 3,82 3,93 10,56 0,96
Đĩa vá. 3,28 4,48 3,85 3,96 10,75 0,96 Song song-Conf.
suất
xác
3,35 4,54 3,87 4,03 10,63 0,96 Tần suất Thời gian 3,39
4,56 3,91 4,07 10,84 0,96 Độc thân Tháng 12 3,38 4,54
3,86 4,05 10,19 0,96 Chức năng kích hoạt mặt nạ cường độ
1
số 8
6
Bật 0,5
2
4
sigmoid 3,34 4,52 3,80 4,02 10,70 0,96

[AU] 0 0 Tần số [kHz]
bản tóm tắt 3,32 4,54 3,80 4,04 10,69 0,96
SoftPlus 3,43 4,58 3,83 4,02 10,75 0,96
Hình 5: Biểu đồ kích hoạt PreLU che dấu.
số 8
3,5 11.2 SNR phân đoạn có trọng số tần số (FWSegSNR) [114] và tỷ lệ năng lượng
điều chế giọng nói trên khử vang (SRMR)
3.3 10.8
NGHIÊN
CỨU
[115]. Bài báo cũng khuyến nghị PESQ như một biện pháp tùy chọn, mặc
dù hầu hết các tài liệu về giảm âm mới nhất đã không tính đến nó. Để
3.1 10.4
[dB]
SSNR
giảm ngoại lệ, các tác giả trong [107] đã đề xuất giới hạn phạm vi của
NGHIÊN CỨU
2.9 10,0 CD thành [0,10] và LLR thành [0,2]. Giá trị thấp hơn cho biết điểm số
SSNR
tốt hơn đối với CD và LLR, trong khi giá trị cao hơn cho biết chất
0 0 1 1 2 2 3 3 4 4 5 5
lượng giọng nói tốt hơn đối với FWSegSSNR, PESQ và SRMR. CD, LLR,
# Khối TS-Conformer
FWSegSNR và PESQ được chọn vì chúng có liên quan đến các bài kiểm tra
Hình 6: Ảnh hưởng của khối TS-Conformer đến điểm số khách quan. nghe, mặc dù chúng đều là các điểm khó, nghĩa là cần có lời nói nâng
cao và tài liệu tham khảo rõ ràng. Theo đó, SRMR được sử dụng như một
và 0,5 cho tất cả các kích hoạt tiêu cực tổng hợp từ lớp trước. Mặt
điểm số không xâm phạm để hoạt động trên bài phát biểu nâng cao mà
khác, chức năng kích hoạt không giới hạn chẳng hạn như PReLU có thể
không có tham chiếu rõ ràng. Do đó, điều khá quan trọng là đo lường
tự động tìm hiểu khoảng thời gian này trong khi giảm thiểu vấn đề kích
chất lượng và độ rõ của các bản ghi thực không ghép nối nâng cao.
hoạt tiêu cực bằng cách tìm hiểu độ dốc liên quan đến từng dải tần số
như được giải thích trong Sec. III-A. Để xác nhận giả định này, chúng
Kết quả: Đối với phân tích định lượng, CMGAN được so sánh với các
tôi xây dựng biểu đồ gồm một số mặt nạ cường độ từ các rãnh ồn ào khác
phương pháp khử âm gần đây. Như đã thảo luận trong Sec. II-B, việc sử
nhau. Như được hiển thị trong Hình 5, các kích hoạt PReLU sẽ luôn nằm
dụng các phương pháp tiếp cận trong miền thời gian trong quá trình
trong khoảng từ 0 đến 1. Hơn nữa, phần lớn các kích hoạt thấp được
loại bỏ âm vang bị hạn chế và các phương pháp này không sử dụng dữ
gán cho các dải tần số trên 5 kHz (ngoài giọng nói của con người) [110].
liệu thử thách REVERB. Do đó, tất cả các phương pháp được chọn sẽ xem
xét phân tích miền TF. Để so sánh công bằng, chỉ những giấy tờ ghi
Chúng tôi cũng mở rộng nghiên cứu cắt bỏ của mình để liên quan đến các
điểm của từng phòng mới được xem xét. Dựa trên tiêu chí này, chúng tôi
kích hoạt có giới hạn và không giới hạn khác nhau cho bộ giải mã mặt
so sánh với bốn phương pháp gần đây: Xiao et al. [79], U-Net [76],
nạ, cụ thể là sigmoid, ReLU và phiên bản mềm của ReLU (softplus) [111].
mạng dư rộng (WRN) [78] và SkipConvNet [77].
Theo Bảng II, cả kích hoạt sigmoid và ReLU đều có thể so sánh được và
Thật không may, không có bài báo nào trong số này báo cáo điểm PESQ,
chúng báo cáo điểm số thấp hơn CMGAN khi kích hoạt PReLU. Softplus đạt
vì vậy nó bị loại khỏi phân tích so sánh. Tuy nhiên, PESQ vẫn được sử
được PESQ cao hơn một chút, nhưng phải trả giá bằng các chỉ số khác.
dụng làm điểm số mục tiêu được tối đa hóa bởi bộ phân biệt số liệu
trong CMGAN.
Cuối cùng, chúng tôi thử nghiệm với số lượng khối TS-Conformer. Như
Kết quả cho cả trường hợp micrô gần và xa tương ứng được hiển thị
được hiển thị trong Hình 6, hiệu suất của CMGAN không có bất kỳ khối
trong Bảng III và IV. Bốn cột đầu tiên biểu thị kết quả dữ liệu mô
tuân thủ nào có thể chấp nhận được và thậm chí có thể so sánh với các
phỏng cho ba kích thước phòng khác nhau (nhỏ – phòng 1, trung bình –
phương pháp SOTA khác, chẳng hạn như MetricGAN. Tuy nhiên, chỉ có một
phòng 2, lớn – phòng 3 và điểm trung bình). Cột cuối cùng biểu thị
khối tuân thủ cải thiện hiệu quả PESQ thêm 0,4.
SRMR của bản ghi thực. Đúng như dự đoán, các phòng lớn hơn và các vị
Hiệu suất tăng dần với nhiều khối hơn cho đến khi không có sự cải
trí đặt micrô xa hơn dẫn đến điểm số thấp hơn, vì những tình huống này
thiện nào nữa được quan sát thấy sau bốn khối. Do những hạn chế về
sẽ gây ra nhiều biến dạng hơn cho bài phát biểu. Trong trường hợp mô
không gian, CMGAN ban đầu sẽ được xem xét cho các nhiệm vụ sắp tới với
phỏng gần micrô, CMGAN được đề xuất cho thấy hiệu suất vượt trội so
một số nghiên cứu cắt bỏ có liên quan.
với các phương pháp khác trong phần lớn các chỉ số, đặc biệt là
FWSegSNR. Đối với SRMR, Xiao et al. báo cáo điểm SRMR cao hơn trên dữ
B. Phản âm
liệu gần mô phỏng, nhưng sự sụt giảm đáng kể được quan sát thấy trong
Điểm số khách quan: Để khử âm vang, chúng tôi sử dụng các biện các bản ghi gần thực.
pháp được đề xuất trong tài liệu thử thách REVERB [8]: khoảng cách
tầng cep (CD) [112], tỷ lệ log-likelihood (LLR) [113], SkipConvNet đạt được điểm số SRMR thực tế tốt hơn trong thời gian tới
BẢNG III: Kết quả dữ liệu mô phỏng và thực tế về trường hợp micrô gần.
CD LLR SRMR 2 3 Trung bìnhFWSegSNR 2 3 SRMR-thật

Phòng 1 1 1 1 -
2 3 Trung bình Tháng mười hai. 2 3 Tháng mười hai
Âm vang 1,99 4,63 4,38 3,67 0,35 0,49 0,65 0,50 8,12 3,35 2,27 4,58 4,50 3,74 3,57 3,94 Xiao et al. [79] 1,58 2,65 2,68 2,30 0,37 0,50 3,17
0,52 0,46 9,79 7,27 6,83 7,96 5,74 6,49 5,86 6,03 WRN [78] 4,29
1 3,32 10,87 10,40 11,53 4,51 5,09 4,94 4,85 1,86 2,57 2,45 2,29 0,19 0,30 0,35 0,28 13,07 10,96 10,22 11,42 4,99 -
U-Net[76] 4,75 4,56 4 .77 5,47
Bỏ quaConvNet [77] 7,27
CMGAN 1,46 2,14 2,27 1,96 0,14 0,25 0,34 0,24 14,36 13,49 11,69 13,18 5,42 5,74 5,29 5,48 1,69 2,56 2,43 2,23 0,15 0,25 6,49
CMGAN-LLR 0,25 0. 22 14,48 12,49 11,03 12,67 5,48 5,80 6,02 5,77 7,71
BẢNG IV: Kết quả mô phỏng và dữ liệu thực trên trường hợp micrô xa.
CD LLR SRMR 2 3 Trung bìnhFWSegSNR 2 3 SRMR-thật

Phòng 1 1 1 1 -
2 3 Trung bình Tháng mười hai. 2 3 Tháng mười hai
Âm vang 2,67 5,21 4,96 4,28 0,38 0,75 0,84 0,66 6,68 1,04 0,24 2,65 4,58 2,97 2,73 3,43 Xiao et al. [79] 1,92 3,17 2,99 2,69 0,41 0,61 0,58 3,19
0,53 9,12 6,31 5,97 7,13 5,67 5,80 5,03 5,50 WRN [78] 2,43 4,99 4,56 3,99 0,35 0,59 0,67 0,54 7,54 1,79 0,88 3,40 4,48 3,32 2,84 3,55 U-Net 4,42
-
[76] 2,05 3,19 2,92 2,72 0,26 0,57 0,56 0,46 12,08 9,00 9,05 10,04 4,76 5,27 4,71 4,91 SkipConvNet [77] 2,12 3,06 2,82 2,67 0,22 0,46 0,46 0,38
11,80 8,88 8,16 9,61 5,10 4,76 4,25 4,70 5,68
6,87
CMGAN 1.88 2.90 2.85 2.54 0.24 0.43 0.47 0.38 11.65 10.34 8.91 10.30 5.78 5.87 4.69 5.45 2.07 3.32 3.05 2.81 0.24 0.46 0.40 6,61
CMGAN-LLR 0.3 7 11,21 9,22 9,48 9,97 5,93 5,54 5,19 5,55 7,62
9
BẢNG V: So sánh hiệu suất cho độ phân giải siêu cao, “-” biểu
trường hợp nhưng tồi tệ hơn trên dữ liệu mô phỏng. U-Net và
thị kết quả không được cung cấp trong bài báo gốc.
SkipConvNet báo cáo điểm số cạnh tranh tổng thể, mặc dù CMGAN
VCTK-Đa.
vượt trội hơn ở CD và FWSegSNR trung bình với 0,3 và 1,65 dB, VCTK-Single
tương ứng. Đối với micrô ở xa, CMGAN vẫn có thể cho thấy mức Phương pháp s LSDe LSD10 SNR LSDe LSD10 SNR
2 3.2 - 21.1 3.1 - 20.7
tăng về điểm tổng thể, đặc biệt là FWSegSNR. Xiao et al. vẫn U-Net[83]
- 19,5 1,8 - 19,8
TFiLM [85] 2 2.5 AFILM [86]
tốt hơn một chút trong SRMR đối với dữ liệu mô phỏng, nhưng
- 19,3 1,7 - 20,0
2 2.3 AE [87]
khoảng cách gần hơn nhiều so với trường hợp micrô ở gần, trung
2 - 0,9 22,4 - 0,9 22.1
bình chỉ 0,05. SkipConvNet cũng vậy với điểm số SRMR thực tốt
2 - - - - 0,8 -
NVSR [88]
hơn một chút so với CMGAN được đề xuất.
CMGAN 2 1,7 0,7 24.7 1.6 0,7 24.4
Nghiên cứu cắt bỏ: Để xác thực lựa chọn PESQ cho bộ phân
CMGAN-Mag. 2 1.4 U-Net [83] 0,6 22.2 1.3 0,6 23,4
biệt số liệu, chúng tôi giới thiệu một biến thể CMGAN hoạt
- 17.1 3,5 - 16.1
4 3.6 TFiLM [85] 4 3.5
động trên LLR dưới dạng điểm số phân biệt số liệu khách quan - -
AFILM [86] 4 3.1 TFNet [84] 16,8 2.7 15,0
(CMGAN LLR). LLR được chọn vì nó phản ánh một số liệu giới hạn - -
17,2 2.3 17,2
và dựa trên công thức LS-GAN [98], bộ phân biệt số liệu mạnh - -
4 1.3 18,5 1.3 17,5
mẽ hơn khi không gian tối ưu hóa được giới hạn bởi một điểm - -
NHƯNG [87] 4 0,9 18,9 1.0 18.1
chuẩn hóa. Theo đó, chúng tôi sửa đổi phương trình. 6 liên 4 - - - - -
NVSR [88] 0,9
quan đến điểm số LLR được chuẩn hóa QLLR thay vì QP ESQ và CMGAN 4 2.3 CMGAN-Mag. 4 1,0 18,6 2.2 1,0 19.1
thuật ngữ 1 được thay đổi thành 0 trong cả LGAN và LD. Do đó, 0,7 16,9 1.8 0,8 16.1
1.7 TFiLM [85]
điểm số được giảm thiểu thành 0 thay vì tối đa hóa thành 1. Có - -
8 4.3 12,9 2,9 12,0
thể chỉ ra trong Bảng III và IV rằng điểm số LLR tốt hơn một PHIM [86] số 8 3.7 - 12,9 2,7 - 12,0
chút so với CMGAN ban đầu được đào tạo với PESQ. Tuy nhiên, TFNet [84] số 8
- 1.9 15,0 - 1.9 12,0
điểm số SRMR cho cả bản ghi mô phỏng và bản ghi thực đã được NVSR [88] số 8
- - - - 1.1 -
cải thiện đáng kể, đặc biệt là trong trường hợp micrô ở gần. CMGAN số 8 2.6 1.1 12.9 2.7 1.2 14.1
Hơn nữa, biến thể CMGAN-LLR hoạt động tốt hơn SkipConvNet trong CMGAN-Mag. số 8 1.9 0,8 10.9 2.0 0,9 10.9
các bản ghi thực tế cho các trường hợp micrô ở gần và ở xa lần
lượt là 0,44 và 0,75. So sánh cả CMGAN và CMGAN-LLR cho thấy giấy tờ gốc tương ứng. Giá trị s = 2/4/8 hàm ý thang lấy mẫu
hiệu suất cân bằng trên hầu hết các chỉ số nhất định có lợi tăng từ 8 kHz/4 kHz/2 kHz đến giọng nói 16 kHz.
cho CMGAN tiêu chuẩn được đề xuất, điều này cho thấy rằng PESQ Trong thử nghiệm VCTK-Single, phương pháp của chúng tôi đạt
là chỉ số mạnh mẽ để tối ưu hóa và có mối tương quan cao với điểm cao nhất ở cả ba chỉ số trên thang 2 khi chuyển đổi tín
hầu hết các chỉ số chất lượng nhất định. hiệu âm thanh từ 8 kHz thành 16 kHz, đặc biệt là ở SNR, cải
thiện 2,3 dB so với phương pháp SOTA AE. Đối với thang 4,
phương pháp AE cho thấy mức cải thiện biên lần lượt là 0,3 dB
C. Siêu phân giải
và 0,1 ở SNR và LSD10 . Trong nhiệm vụ thang 8, phương pháp
Điểm số mục tiêu: Hai chỉ số, khoảng cách log-phổ (LSD) và của chúng tôi vượt qua các phương pháp khác về LSDe và LSD10.
tỷ lệ tín hiệu trên tạp âm (SNR), được sử dụng để đánh giá độ Tuy nhiên, SNR thấp hơn TFNet và tương tự như cách tiếp cận
phân giải siêu cao. Dựa trên đánh giá tài liệu của chúng tôi, TFiLM và AFiLM. Chúng tôi đưa ra giả thuyết rằng điều này được
định nghĩa LSD không giống nhau đối với tất cả các bài báo. Về tính cho các mẫu đào tạo hạn chế trong bộ dữ liệu VCTK-Single,
mặt toán học, LSD đo khoảng cách nhật ký giữa thành phần phổ điều này có thể dẫn đến việc mô hình bị quá khớp. Mặt khác,
cường độ của giọng nói nâng cao đối với tham chiếu sạch. trong VCTK-Multi. đánh giá, phương pháp của chúng tôi vượt
Một số bài báo sẽ sử dụng nhật ký cho cơ sở e, trong khi những trội so với các phương pháp khác trong tất cả các tỷ lệ nâng
bài báo khác sẽ đánh giá nhật ký cho cơ số 10. Trong cả hai cấp trên tất cả các chỉ số. Cụ thể, phương pháp của chúng tôi
định nghĩa, STFT được đánh giá với cửa sổ Hanning gồm 2048 mẫu có sự cải thiện 2,3 dB, 1,0 dB và 2,1 dB trên SNR trên thang
và kích thước bước nhảy là 512. Để đảm bảo so sánh công bằng, 2/4/8. Lưu ý rằng CMGAN có hiệu suất tốt hơn nhiều trên thang
cùng một tham số STFT được sử dụng và kết quả LSD dựa trên hai đo 8 so với thang đo tương tự trong đánh giá đơn VCTK, xác minh giả định kh
định nghĩa khác nhau trong tài liệu được trình bày. LSD thấp Nghiên cứu cắt bỏ: Để chứng minh tính hiệu quả của siêu
hơn và SNR cao hơn thể hiện chất lượng giọng nói tốt hơn. phân giải miền TF phức tạp. CMGAN được sửa đổi để loại bỏ cả
Kết quả: Vì các phương pháp dựa trên mặt nạ không phù hợp
bộ giải mã phức tạp và bộ phân biệt số liệu, chỉ để lại tổn
với tác vụ siêu phân giải, như đã nêu trước đây trong Phần. II-C.
thất cường độ (CMGAN-Mag.). Một cải tiến đáng kể trong cả LSDe
Do đó, phần bộ giải mã mặt nạ CMGAN được sửa đổi bằng cách sử
và LSD10 được quan sát thấy khi nhánh phức tạp bị loại bỏ và
dụng phép cộng theo phần tử thay vì phép nhân theo phần tử.
điều này được mong đợi vì LSD chỉ được xác định theo thành
Điều này được phản ánh trong phương trình. 3 như
phần cường độ. Mức tăng LSD này phải trả giá bằng việc điểm số
Xˆ r sau: = (M + Ym) cos Yp + SNR giảm đáng kể, điểm này xem xét tín hiệu miền thời gian
r
(9) được tái tạo. Do đó, việc loại bỏ nhánh phức tạp sẽ tạo ra một
Xˆ Xˆ = (M + Ym) sin Yp + Xˆ
Tôi
Tôi
cú hích trong LSD vì mạng sẽ chỉ tập trung vào việc tăng cường
trong đó M đại diện cho đầu ra đã sửa đổi của bộ giải mã mặt nạ. thành phần cường độ nhưng lại làm giảm chất lượng tín hiệu
Không giống như các trường hợp khử nhiễu và khử vang trước tổng thể.
đây, mạng không học cách kích hoạt mặt nạ trong khoảng từ 0 Minh họa về các rãnh đầu vào, dự đoán và tham chiếu từ ví
đến 1 để triệt tiêu tiếng ồn và bảo toàn giọng nói, mà là các dụ thang 4 được mô tả trong Hình 7. Sự kích thích của các dải
hoạt động có thể hoàn thành các dải tần số cao bị thiếu trong tần số cao rõ ràng trong mặt nạ đầu ra M. So sánh Hình 7c và .
khi vẫn duy trì các dải tần số thấp đã cho . 7d cho thấy tiềm năng của CM GAN trong việc xây dựng thiếu
Như thể hiện trong Bảng V, chúng tôi so sánh cách tiếp cận các dải tần số cao chỉ do quan sát các ngữ âm giọng nói khác
của mình với năm phương pháp khác: kiến trúc U-Net do Kuleshov nhau trong dữ liệu huấn luyện. Hiệu suất này cũng được phản
et al đề xuất. [83], TFiLM [85], AFiLM [86], TFNet kết hợp ánh dưới dạng phép nội suy chính xác của các mẫu trung gian
[84], AE kết hợp [87] và NVSR [88]. Tất cả các điểm số là từ trong miền thời gian Hình 7e, 7f và 7g.
10
số 8
6 6 6 6
[kHz]
Tần
số 4 [kHz]
Tần
số 4 [kHz]
Tần
số 4 [kHz]
Tần
số 4
2 2 2 2
0 0 0 0
0,5 1 1,5 2 2,5 Thời 3 0,5 1 1,5 2 Thời 2,5 3 0,5 1 1,5 2 Thời 2,5 3 0,5 1 1,5 2 2,5 3 Thời
(a) Đầu vào có độ phân giải thấp (b) Mặt nạ dự đoán M (c) Sản lượng dự kiến (d) Tham chiếu độ phân giải cao
1 1 1
[AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá
0 0 0
1 1 1
Thời gian [ms] Thời gian [ms] Thời gian [ms]
(e) Đoạn đầu vào 4 kHz (f) Đoạn dự đoán 16 kHz (g) Đoạn tham chiếu 16 kHz
Hình 7: Ví dụ về siêu phân giải thang 4 (4 kHz 16 kHz). Hàng trên biểu thị các biểu diễn cường độ TF của các phổ có liên quan. Hàng dưới cùng hiển
thị một đoạn 20 ms của các tín hiệu trong miền thời gian tương ứng.
VI. ĐÁNH GIÁ CHỦ QUAN Theo tài liệu, DNSMOS sẽ được đánh giá là thước đo đánh giá chủ quan
của chúng tôi. Do không gian hạn chế và không có sẵn các triển khai
Cho đến bây giờ, kiến trúc được đề xuất được so sánh một cách định
nguồn mở, đặc biệt là trong quá trình hủy bỏ. Đánh giá chủ quan sẽ tập
lượng với các phương pháp SOTA khác nhau bằng cách sử dụng điểm số đo
trung vào khía cạnh khử nhiễu của vấn đề SE. Theo đó, bốn trường hợp sử
lường khách quan. Mặc dù những điểm số này có thể đóng vai trò là dấu
dụng khử nhiễu khác nhau được đưa vào nghiên cứu này để chỉ ra khả năng
hiệu cho thấy phương pháp được đề xuất tốt như thế nào, nhưng chúng vẫn
tổng quát hóa của mạng đối với các điều kiện nhiễu không nhìn thấy được,
không thể thay thế hoàn toàn thước đo chất lượng chủ quan. Vì các bài
các mẫu nhiễu thực và các biến dạng bổ sung không có trong đào tạo. Để
kiểm tra nghe chủ quan rất tốn kém và mất thời gian vì nó đòi hỏi nhiều
đạt được mục tiêu này, tất cả các khung sẽ được đào tạo trên một trường
người tham gia và điều kiện nghe lý tưởng. Do đó, việc tìm kiếm một
hợp sử dụng duy nhất (Ngân hàng giọng nói+NHU CẦU), sau đó các mô hình
thước đo chắc chắn khách quan có thể tương quan cao với điểm chất lượng
sẽ được đánh giá trên bốn bộ dữ liệu khác nhau:
chủ quan vẫn là một chủ đề nghiên cứu mở [116]. Công trình đáng chú ý
nhất trong lĩnh vực này được giới thiệu trong [107], trong đó các tác
giả đề xuất điểm ý kiến trung bình tổng hợp (MOS) dựa trên các phương (a) Voice Bank+Bộ kiểm tra DEMAND [7]: bao gồm 35 phút (824 bản nhạc)
pháp phân tích hồi quy truyền thống [117]. Lưu ý rằng những điểm này giọng nói ồn ào từ hai người nói không nhìn thấy bằng cách sử dụng các
được sử dụng trong Sec. VA để đánh giá hiệu suất khử nhiễu giọng nói. loại tiếng ồn từ bộ dữ liệu DEMAND [100] không được đưa vào đào tạo như
Nghiên cứu bao gồm 1792 mẫu giọng nói được đánh giá theo tiêu chuẩn ITU- được giải thích trong Phần. IV-A. (b) CHiME-3 [9]: bao gồm
T P.835 [118] và các phép đo khách quan đã được thiết lập tốt như PESQ, 7,8 giờ (4560 bản nhạc) ghi âm giọng nói ồn ào thực sự từ 12 người nói
SNR phân đoạn, LLR và độ dốc phổ có trọng số (WSS) [119] được sử dụng ở bốn môi trường khác nhau: xe buýt, quán cà phê, khu vực dành cho người
làm hàm cơ sở để xây dựng của ba điểm tổng hợp khác nhau phản ánh độ méo đi bộ và ngã ba đường.
tín hiệu, nhiễu nền và chất lượng tổng thể. Biện pháp tổng hợp được đề Trong dữ liệu này, không có rãnh tham chiếu rõ ràng nào. (c)
xuất báo cáo mối tương quan từ 0,9 đến 0,91 với xếp hạng chủ quan và các Thử thách DNS [10]: dữ liệu gốc bao gồm 1934 người nói tiếng Anh đọc các
tác giả nhấn mạnh tầm quan trọng của PESQ vì nó cho thấy mối tương quan mẫu giọng nói từ Librivox2 và 181 giờ của 150 loại tiếng ồn khác nhau từ
cao nhất (0,89). Tuy nhiên, nghiên cứu này chỉ giới hạn ở bốn loại tiếng Audio Set [126] và Freesound3 Dựa trên bộ dữ liệu này, chúng tôi xây
ồn nền trong hai điều kiện SNR (5 và 10 dB) và quan trọng nhất, điểm số . nhạc) của lời nói ồn ào với SNR từ 0 đến 10 dB. (d)
dựng 9 giờ (3240 bản
được đề xuất là xâm phạm (yêu cầu cả giọng nói sạch và nâng cao được Thử thách DNS+Reverb.: chúng tôi sử dụng cùng 9 giờ, nhưng chúng tôi
ghép nối). mô phỏng các điều kiện âm vang trên bài phát biểu, sau đó chúng tôi thêm
tiếng ồn tương tự vào phần thử thách DNS. Các RIR được chọn từ
openSLR26/28 [127], bao gồm 248 điều kiện thực và 60 nghìn điều kiện
Gần đây, DNN đã được sử dụng để tìm điểm thay thế chủ quan [120]– tổng hợp. Các RIR được ghi ở ba kích cỡ phòng khác nhau với thời gian âm
[125]. Không giống như biện pháp tổng hợp trước đây, hầu hết các phương vang 60 dB là 0,3-1,3 giây.
pháp này sẽ lấy đường đi làm đầu vào và mạng được đào tạo để bắt chước
xếp hạng chủ quan. Tất cả các bản nhạc được ghép lại thành 16 kHz và tỷ lệ giữa nam và
Do đó, điểm số sẽ không phụ thuộc vào điểm số mục tiêu không tối ưu, mà nữ là 50%. Từ Bảng I, chúng tôi chọn một đại diện cho mỗi mô hình khử
phụ thuộc vào toàn bộ bài hát. Ngoài ra, những điểm số này không xâm nhiễu. Các phương pháp đã được chọn dựa trên tính khả dụng của việc
phạm, do đó có thể đánh giá các bản nhạc nâng cao mà không cần tham triển khai nguồn mở và khả năng tái tạo của các kết quả được báo cáo
chiếu rõ ràng. Điểm tiêu chuẩn được sử dụng làm cơ sở chủ quan cho nhiều trong các bài báo tương ứng. Là đại diện cho bộ phân biệt số liệu, chúng
nghiên cứu gần đây là DNSMOS do Microsoft đề xuất trong [124], [125]. tôi đã sử dụng MetricGAN+ [105]. Đối với phương pháp miền thời gian,
DEMUCS [17] được chọn. Để khử nhiễu phức miền TF, PHASEN [12] được chọn
DNSMOS được đào tạo trong 75 giờ phát biểu được xếp hạng. Theo ITU-T vì nó cố gắng hiệu chỉnh các thành phần pha và cường độ. Ngoài ra, PFPL
P.835, người nghe chỉ định điểm từ 1 đến 5 (càng cao càng tốt) cho độ [104] sử dụng một sâu
méo tín hiệu, tiếng ồn xung quanh và chất lượng tổng thể. Một mối tương
quan đáng kể từ 0,94 đến 0,98 được báo cáo trên ba điểm đánh giá chất 2https://librivox.org/
lượng nhất định. 3https://freesound.org/
11
Số liệuGAN+ DEMUCS GIAI ĐOẠN PFPL CMGAN
4.2 4.2 4
4
3,8 3.6
3,8
3.6 3.4 3.2

3.4
3 2,8
3
DNSMOS DNSMOS DNSMOS DNSMOS
3.2
2.6 2.4
2.6
2.2 2
2,8
2.2
1.8 1.6
2.4 1.8 1.4 1.2

3,26 3,56 3,57 3,57 3,72 3,05 3,48 3,58 3,62 3,77 3,1 3,12 3,71 3,75 3,9 2,47 2,68 3,28 3,22 3,43
Trung bình Trung bình Trung bình Trung bình
(a) Ngân hàng thoại+NHU CẦU (b) CHiME-3 (tiếng ồn thực) (c) Thách thức DNS (d) Thách thức DNS + Reverb.
Hình 8: DNSMOS của các phương pháp đánh giá chủ quan được thử nghiệm trên bốn bộ dữ liệu khác nhau. Trong các ô vuông, giá trị trung
bình được biểu thị bằng ( ), trung vị (-) và chiều rộng của mỗi ô biểu thị phạm vi liên vùng (phân vị thứ 25 và 75 ). Râu hiển thị các
giá trị tối đa và tối thiểu không bao gồm các giá trị ngoại lệ ( ). Giá trị trung bình cho mỗi phương pháp được trình bày trên trục x.
mạng có giá trị phức tạp để nâng cao cả phần thực và phần ảo. Mặc dù kết quả trên, nghiên cứu này không phải là không có hạn
Hầu hết các bài báo cung cấp một triển khai chính thức với các chế. Chẳng hạn, CMGAN chưa được thử nghiệm để tăng cường giọng nói
mô hình được đào tạo trước. PHASEN là ngoại lệ duy nhất vì mã trong thời gian thực, nghĩa là CMGAN có thể truy cập toàn bộ bản nhạc.
không chính thức được sử dụng và chúng tôi đã đào tạo mô hình Trong tương lai, CMGAN nên được sửa đổi để chỉ truy cập vào một
để tái tạo kết quả trong bài báo. Đối với DEMUCS, mô hình có sẵn số thùng TF từ các mẫu cũ chứ không phải toàn bộ rãnh, cùng với
được đào tạo trước trên cả dữ liệu thử thách DNS+DEMAND và Voice một nghiên cứu mở rộng về số lượng chính xác các thao tác dấu
Bank. Do đó, chúng tôi đào tạo lại DEMUCS bằng cách sử dụng cấu phẩy động trong kịch bản thời gian thực. Do hạn chế về không
hình được đề xuất trên dữ liệu Voice Bank+DEMAND chỉ để đảm bảo gian, chúng tôi tập trung thử nghiệm từng tác vụ riêng biệt.
so sánh công bằng giữa tất cả các mô hình được trình bày. Hiệu ứng chồng chất (khử nhiễu và khử âm vang) chỉ được đề cập
ngắn gọn trong phần đánh giá chủ quan, vì vậy việc đào tạo và
Đối với các giới hạn về không gian, chỉ DNSMOS của chất lượng
đánh giá CMGAN cho trường hợp sử dụng này sẽ là một phần mở
giọng nói tổng thể được báo cáo, như thể hiện trong Hình 8. Từ
rộng quan trọng trong công việc của chúng tôi.
các ô vuông, CMGAN vượt trội hơn tất cả các phương pháp trong
bốn trường hợp sử dụng. Chẳng hạn, CMGAN cho thấy mức cải thiện
VII. KẾT LUẬN
trung bình là 0,15 so với phương pháp cạnh tranh nhất (PFPL)
trong ba trường hợp sử dụng đầu tiên. Hơn nữa, phạm vi ô vuông Bài báo này giới thiệu CMGAN như một khung hợp nhất hoạt động
giữa các phần tử của CMGAN hẹp hơn nhiều so với tất cả các trên cả thành phần cường độ và phổ phức hợp cho các tác vụ tăng
phương pháp khác, điều này cho thấy phương sai thấp và do đó là cường giọng nói khác nhau, bao gồm khử nhiễu, khử âm thanh và
một dự đoán chắc chắn, đặc biệt là trong thử thách DNS (Hình siêu phân giải. Cách tiếp cận của chúng tôi kết hợp các công cụ
8c). Mặt khác, MetricGAN+ đang cho thấy hiệu suất kém nhất trong tuân thủ gần đây có thể nắm bắt được các phụ thuộc dài hạn cũng
tất cả các trường hợp sử dụng. Chúng tôi đưa ra giả thuyết rằng như các đặc điểm cục bộ ở cả phương diện thời gian và tần suất,
mặc dù điểm số PESQ tương đối cao (3,15), nhưng điểm số SSNR mà cùng với một bộ phân biệt số liệu giải quyết sự không phù hợp của
chúng tôi tính toán là dưới 1 dB, cho thấy rằng bộ phân biệt số số liệu bằng cách nâng cao trực tiếp các điểm đánh giá không thể
liệu trong trường hợp MetricGAN+ chỉ tập trung vào việc nâng cao phân biệt. Kết quả thử nghiệm chứng minh rằng phương pháp được đề
PESQ mà bỏ qua các số liệu khác. Lưu ý rằng điểm SSNR không được xuất đạt được hiệu suất vượt trội hoặc cạnh tranh so với các
báo cáo trong bài báo gốc. DEMUCS đại diện cho mô hình miền thời phương pháp SOTA trong từng tác vụ với tương đối ít tham số (1,83
gian đang thể hiện hiệu suất mạnh mẽ đối với các trường hợp sử M). Ngoài ra, chúng tôi tiến hành nghiên cứu cắt bỏ để xác minh
dụng Voice Bank+DEMAND và CHiME-3 thực. lợi ích phân mảnh của từng thành phần được sử dụng và tổn thất
Tuy nhiên, nó không khái quát hóa bộ dữ liệu thách thức DNS. trong khung CMGAN được đề xuất. Cuối cùng, đánh giá chủ quan
Vấn đề khái quát hóa này được giảm thiểu rõ ràng trong các minh họa rằng CMGAN vượt trội so với các phương pháp khác với khả
phương pháp khử nhiễu phức tạp miền TF (PHASEN, PFPL và CMGAN). năng tổng quát hóa mạnh mẽ đối với các loại nhiễu và biến dạng không nhìn thấy
Từ Hình 8d, thử thách DNSMOS tổng thể của DNS với âm vang bổ
sung giảm trung bình 0,5 so với thử thách DNS (Hình 8c). Điều SỰ NHÌN NHẬN
này được dự kiến là việc khái quát hóa các hiệu ứng không nhìn
Chúng tôi xin cảm ơn Viện Xử lý ngôn ngữ Lan tự nhiên, Đại
thấy như âm vang khó hơn so với các loại tiếng ồn không nhìn
học Stuttgart đã cung cấp các bộ dữ liệu hữu ích để hỗ trợ
thấy. Bất chấp sự sụt giảm này, CMGAN vẫn thể hiện hiệu suất
nghiên cứu này.
vượt trội so với các phương pháp tiếp cận miền TF cạnh tranh
khác (PHASEN và PFPL).
RUỘT THỪA
Hình dung thêm về các mô hình đánh giá chủ quan đã trình bày
được trình bày trong phần Phụ lục. Các mẫu âm thanh từ tất cả Phần này trình bày trực quan về CMGAN so với các phương pháp
các phương pháp đánh giá chủ quan đều có sẵn trực tuyến4 đánh giá chủ quan. Tiếng ồn quán cà phê không cố định dải rộng
cho độc giả quan tâm. từ bộ dữ liệu DEMAND (SNR = 0 dB) và tiếng ồn chuông cửa cố định
4https://sherifabdulatif.github.io/ tần số cao dải hẹp
12
từ bộ dữ liệu Freesound (SNR = 3 dB) được sử dụng để đánh [14] S. Pascual, A. Bonafonte và J. Serra, “SEGAN: Mạng đối thủ tạo ra cải tiến giọng
giá các phương pháp. Cả hai tiếng ồn đều được thêm vào các nói,” trong Kỷ yếu của Interspeech, 2017, trang 3642–3646.
câu từ thử thách DNS. So sánh được thực hiện giữa các biểu [15] C. Macartney và T. Weyde, “Cải thiện nâng cao giọng nói với
diễn miền thời gian, cường độ TF và pha TF để phân tích hiệu Sóng-U-Net,” arXiv, tập. abs/1811.11307, 2018.
suất toàn diện. Vì pha không có cấu trúc nên chúng tôi sử [16] K. Wang, B. He và WP Zhu, “TSTNN: Mạng thần kinh dựa trên máy biến áp hai tầng để
tăng cường giọng nói trong miền thời gian,” trong Hội nghị quốc tế IEEE về Xử lý
dụng phương pháp độ lệch pha dải cơ sở (BPD) được đề xuất âm thanh, giọng nói và tín hiệu (ICASSP), 2021, trang 7098–7102.
trong [128] để nâng cao khả năng hiển thị pha. Từ Hình 9,
MetricGAN+, DEMUCS và PHASEN thể hiện hiệu suất kém nhất do [17] A. Defossez, G. Synnaeve và Y. Adi, “Tăng cường giọng nói theo thời gian thực
trong miền dạng sóng,” trong Kỷ yếu của Interspeech, 2020, trang 3291–
nhầm lẫn giọng nói với tiếng ồn, đặc biệt là trong khoảng 3295.
thời gian từ 1,5 đến 2 giây (công suất tiếng ồn và giọng nói tương
[18] tự).
E. Kim và H. Seo, “SE-Conformer: Tăng cường giọng nói trong miền thời gian bằng
Các biến dạng và các phân đoạn lời nói bị thiếu được chú cách sử dụng bộ tuân thủ,” trong Kỷ yếu của Interspeech, 2021, trang 2736–2740.
thích trong các biểu diễn thời gian và cường độ TF theo ( )

[19] S. Abdulatif và cộng sự, “AeGAN: Khử nhiễu giọng nói theo tần số thời gian thông
và ( ), tương ứng. Ngoài ra, pha khử nhiễu trong các phương qua các mạng đối nghịch chung,” trong Hội nghị xử lý tín hiệu châu Âu lần thứ 28
pháp chỉ sử dụng cường độ (MetricGAN+) và miền thời gian (EUSIPCO), 2020, trang 451–455.
[20] S. Abdulatif và cộng sự, “Điều tra tổn thất giữa các miền để tăng cường giọng
(DEMUCS) rất giống với đầu vào nhiễu, trái ngược với sự cải
nói,” trong Hội nghị xử lý tín hiệu châu Âu lần thứ 29 (EUSIPCO), 2021, trang 411–
tiến rõ ràng trong các phương pháp miền TF phức tạp (PHASEN, 415.
PFPL và CMGAN). PFPL và CMGAN thể hiện hiệu suất tốt nhất, [21] DS Williamson, Y. Wang và P. Wang, “Mặt nạ tỷ lệ phức hợp để tách giọng nói đơn
âm,” Giao dịch của IEEE về Xử lý âm thanh, lời nói và ngôn ngữ, tập. 24, không. 3,
với khả năng tái tạo pha tốt hơn trong CMGAN (khoảng thời
trang 483–492, 2016.
gian 1,5 đến 2 giây).
[22] K. Tan và D. Wang, “Ánh xạ quang phổ phức hợp với mạng hồi quy tích chập để tăng
Nói chung, tiếng ồn cố định ít thách thức hơn so với cường giọng nói đơn âm,” trong Hội nghị quốc tế về xử lý âm thanh, lời nói và tín
hiệu của IEEE (ICASSP), 2019, trang 6865–6869.
tiếng ồn không cố định. Tuy nhiên, tiếng ồn cố định không
được thể hiện trong dữ liệu đào tạo. Như được mô tả trong [23] ZQ Wang, G. Wichern và J. Le Roux, “Về sự bù giữa cường độ và pha trong phân tách
Hình 10, các phương thức như MetricGAN+ và PHASEN đang thể giọng nói,” IEEE Signal Processing Letters, vol. 28, trang 2018–2022, 2021.
hiện hiệu suất tổng quát hóa kém, với các biến dạng chuông
[24] A. Li, C. Zheng, L. Zhang và X. Li, “Liếc và nhìn: Khung học tập hợp tác để nâng
cửa có thể nhìn thấy rõ ràng ở các tần số (3,5, 5 và 7 kHz).
cao giọng nói một kênh,” Âm học ứng dụng, tập. 187, 2022.
Mặt khác, hiệu suất tốt hơn một chút trong DEMUCS và PFPL,
trong khi CMGAN làm giảm hoàn toàn mọi biến dạng. Lưu ý rằng [25] A. Vaswani và cộng sự, “Bạn chỉ cần chú ý,” Những tiến bộ trong hệ thống xử lý
thông tin thần kinh, tập. 30, 2017.
các biến dạng tần số cao khó phát hiện hơn trong miền thời
[26] F. Dang, H. Chen và P. Zhang, “DPT-FSNet: Mạng hợp nhất băng tần con và băng tần
gian so với các biểu diễn cường độ TF và pha TF. con dựa trên biến áp kép để tăng cường giọng nói,” arXiv, tập. abs/2104.13002, 2021.
[27] A. Gulati và cộng sự, “Conformer: Biến áp tăng cường tích chập để nhận dạng giọng
NGƯỜI GIỚI THIỆU
nói,” trong Kỷ yếu của Interspeech, 2020, trang 5036–5040.
[28] S. Chen và cộng sự, “Tách giọng nói liên tục bằng bộ tuân thủ,” trong Hội nghị
[1] R. Cao, S. Abdulatif và B. Yang, “CMGAN: GAN số liệu dựa trên bộ tuân thủ để cải
quốc tế về xử lý âm thanh, giọng nói và tín hiệu của IEEE (ICASSP), 2021, trang
thiện giọng nói,” trong Kỷ yếu của Interspeech, 2022, trang 936–940.
5749–5753.
[29] J. Chen, Q. Mao và D. Liu, “Mạng máy biến áp hai đường dẫn: Mô hình nhận biết ngữ
[2] F. Weninger và cộng sự, “Tăng cường giọng nói với mạng thần kinh tái phát LSTM và
cảnh trực tiếp để tách giọng nói đơn âm từ đầu đến cuối,” trong Kỷ yếu của
ứng dụng của nó đối với ASR chống nhiễu,” trong Hội nghị quốc tế về phân tích biến
Interspeech, 2020, trang 2642–2646 .
tiềm ẩn và tách tín hiệu, 2015, trang.
91–99. [30] H. Purwins và cộng sự, “Học sâu để xử lý tín hiệu âm thanh,” Tạp chí IEEE về các
chủ đề được chọn trong Xử lý tín hiệu, tập. 13, không. 2, trang 206–219, 2019.
[3] C. Zheng và cộng sự, “Mô hình tiếng ồn và giọng nói tương tác để tăng cường giọng
nói,” trong Kỷ yếu của Hội nghị AAAI về Trí tuệ nhân tạo, tập. 35, không. 16,
[31] D. Michelsanti và cộng sự, “Tổng quan về tăng cường và tách giọng nói nghe nhìn
2021, trang 14549–14557.
dựa trên học sâu,” Giao dịch IEEE/ACM về Xử lý âm thanh, lời nói và ngôn ngữ, tập.
[4] JL Desjardins và AK Doherty, “Hiệu quả của việc giảm tiếng ồn của máy trợ thính đối
29, trang 1368–1396, 2021.
với nỗ lực nghe ở người lớn khiếm thính,” Tai và thính giác, tập. 35, không. 6,
[32] D. Wang và J. Lim, “Sự không quan trọng của giai đoạn trong việc cải thiện giọng
trang 600–610, 2014.
nói,” Giao dịch của IEEE về Xử lý âm thanh, giọng nói và tín hiệu, tập. 30, không.
[5] D. Wang và J. Chen, “Tách lời nói có giám sát dựa trên học sâu: Tổng quan,” Giao
4, trang 679–681, 1982.
dịch IEEE/ACM về Xử lý âm thanh, lời nói và ngôn ngữ, tập. 26, không. 10, trang
[33] K. Paliwal, K. Wójcicki và B. Shannon, “Tầm quan trọng của giai đoạn trong việc
1702–1726, 2018.
nâng cao giọng nói,” Giao tiếp bằng lời nói, tập. 53, không. 4, trang 465–494, 2011.
[6] PC Loizou, Nâng cao khả năng nói: Lý thuyết và thực hành, CRC Press, Inc., Hoa Kỳ,
tái bản lần 2, 2013.
[34] D. Rethage, J. Pons và X. Serra, “Một mạng sóng để khử nhiễu giọng nói,” trong Hội
[7] C. Valentini-Botinhao, X. Wang, S. Takaki và J. Yamagishi, “Điều tra các phương
nghị quốc tế IEEE về Xử lý âm học, giọng nói và tín hiệu (ICASSP), 2018, trang
pháp tăng cường giọng nói dựa trên RNN để chuyển văn bản thành giọng nói chống
5069–5073.
nhiễu,” trong Hội thảo tổng hợp giọng nói ISCA (SSW) lần thứ 9, 2016, trang 146–
152. [35] SW Fu và cộng sự, “Tăng cường cách phát biểu dạng sóng từ đầu đến cuối để tối ưu
[8] K. Kinoshita và cộng sự, “Tóm tắt về thử thách hồi âm: Công nghệ tiên tiến nhất và hóa số liệu đánh giá trực tiếp bằng các mạng thần kinh tích chập hoàn toàn,”
những thách thức còn lại trong nghiên cứu xử lý tiếng vang,” Giao dịch IEEE/ACM về xử lý âm thanh, lời nói và ngôn ngữ, tập. 26, không. 9, trang
Tạp chí về những tiến bộ trong xử lý tín hiệu, tập. 7, không. 01, trang 1–19, 2016. 1570–1584, 2018.
[9] J. Barker, R. Marxer, E. Vincent và S. Watanabe, “Thử thách nhận dạng và phân tách [36] A. Pandey và D. Wang, “TCNN: Mạng nơ-ron tích chập tạm thời hoạt động để tăng
giọng nói 'CHiME' thứ ba: Tập dữ liệu, tác vụ và đường cơ sở,” trong Hội thảo của cường giọng nói theo thời gian thực trong miền thời gian,” trong Hội nghị quốc tế
IEEE về Nhận dạng và hiểu giọng nói tự động (ASRU) , 2015, trang 504–511. về xử lý âm thanh, lời nói và tín hiệu của IEEE (ICASSP), 2019, trang. 6875–6879.
[10] H. Dubey và cộng sự, “Thử thách triệt tiêu tiếng ồn sâu của ICASSP 2022,” trong [37] H. Phan và cộng sự, “Cải thiện GAN để tăng cường giọng nói,” Tín hiệu IEEE
Hội nghị quốc tế IEEE về Xử lý âm học, lời nói và tín hiệu (ICASSP), 2022. Xử lý thư, tập. 27, trang 1700–1704, 2020.
[38] S. Pascual, J. Serra và A. Bonafonte, “Hướng tới nâng cao khả năng nói tổng quát
[11] S.-W. Fu, C.-F. Liao, Y. Tsao và SD Lin, “MetricGAN: Tối ưu hóa điểm số liệu hộp với các mạng lưới đối thủ chung,” trong Kỷ yếu của Interspeech, 2019, trang 1791–
đen dựa trên các mạng đối nghịch tạo ra để cải thiện giọng nói,” trong Hội nghị 1795.
quốc tế về học máy. [39] C. Donahue, B. Li và R. Prabhavalkar, “Khám phá khả năng tăng cường giọng nói với
PMLR, 2019, trang 2031–2041. các mạng đối nghịch chung để nhận dạng giọng nói mạnh mẽ,” trong Hội nghị quốc tế
[12] D. Yin, C. Luo, Z. Xiong và W. Zeng, “PHASEN: Mạng tăng cường giọng nói nhận biết về xử lý âm thanh, giọng nói và tín hiệu của IEEE (ICASSP), 2018, trang 5024 –5028.
pha và sóng hài,” trong Kỷ yếu của Hội nghị AAAI về Trí tuệ nhân tạo, tập. 34,
không. 05, 2020, trang 9458–9465. [40] D. Michelsanti và ZH Tan, “Các mạng đối thủ tạo ra có điều kiện để tăng cường
giọng nói và xác minh người nói chống ồn,” trong Kỷ yếu của Interspeech, 2017,
[13] G. Yu và cộng sự, “Biến áp chú ý trong chú ý nhánh kép để tăng cường giọng nói trang 2008–2012.
trên một kênh,” trong Hội nghị quốc tế IEEE về Âm học, Lời nói và Xử lý tín hiệu [41] Z. Meng và cộng sự, “Sơ đồ tính năng đối nghịch để nâng cao giọng nói,” trong Kỷ
(ICASSP), 2022, trang 7847–7851. yếu của Interspeech, 2018, trang 3259–3263.
13
[42] Y. Luo và N. Mesgarani, “Conv-TasNet: Vượt qua mặt nạ cường độ tần số–thời [69] Z. Jin và D. Wang, “Một cách tiếp cận học tập có giám sát đối với sự tách
gian lý tưởng để phân tách giọng nói,” Giao dịch IEEE/ACM về Xử lý âm thanh, biệt đơn âm của lời nói dội lại,” trong Hội nghị Quốc tế IEEE về Âm học, Lời
lời nói và ngôn ngữ, tập. 27, không. 8, trang 1256–1266, 2019. nói và Xử lý Tín hiệu (ICASSP), 2007, trang 921–924.
[70] Y. Zhao, D. Wang, I. Merks và T. Zhang, “Tăng cường giọng nói ồn ào và vang
[43] S. Rickard và O. Yilmaz, “Về tính trực giao gần đúng của W-disjoint của lời dội dựa trên DNN,” trong Hội nghị quốc tế IEEE về Xử lý âm thanh, giọng nói
nói,” trong Hội nghị Quốc tế IEEE về Âm học, Lời nói và Xử lý Tín hiệu và tín hiệu (ICASSP), 2016, trang. 6525–6529.
(ICASSP), 2002, trang 529–532. [71] XL Zhang và D. Wang, “Phương pháp học tập đồng bộ sâu để tách giọng nói đơn
[44] AS Bregman, Phân tích bối cảnh thính giác: Tổ chức nhận thức của âm thanh, âm,” Giao dịch IEEE/ACM về Xử lý âm thanh, lời nói và ngôn ngữ, tập. 24,
MIT Press, 1994. không. 5, trang 967–977, 2016.
[45] O. Yilmaz và S. Rickard, “Tách hỗn hợp giọng nói một cách mù quáng thông qua [72] X. Li, J. Li và Y. Yan, “Ước tính mặt nạ tỷ lệ lý tưởng bằng cách sử dụng
mặt nạ tần số thời gian,” Giao dịch của IEEE về Xử lý tín hiệu, tập. 52, mạng lưới thần kinh sâu để phân biệt lời nói đơn âm trong điều kiện âm vang
không. 7, trang 1830–1847, 2004. ồn ào,” trong Kỷ yếu của Interspeech, 2017, trang 1203–1207.
[46] Y. Wang và D. Wang, “Hướng tới mở rộng quy mô phân tách giọng nói dựa trên [73] DS Williamson và D. Wang, “Xử lý tiếng nói và khử tiếng ồn bằng cách sử dụng
phân loại,” IEEE Transactions on Audio, Speech, and Language Processing, mặt nạ tỷ lệ phức hợp,” trong Hội nghị quốc tế IEEE về âm thanh, giọng nói
tập. 21, không. 7, trang 1381–1390, 2013. và xử lý tín hiệu (ICASSP), 2017, trang 5590–5594.
[47] Y. Wang và D. Wang, “Một thuật toán để cải thiện khả năng nhận dạng giọng [74] DS Williamson và D. Wang, “Mặt nạ tần số thời gian trong miền phức hợp để
nói trong tiếng ồn cho người nghe khiếm thính,” Tạp chí của Hiệp hội Âm học giảm âm vang và khử nhiễu giọng nói,” Giao dịch IEEE/ACM về xử lý âm thanh,
Hoa Kỳ, tập. 134, không. 4, trang 3029–3038, 2013. lời nói và ngôn ngữ, tập. 25, không. 7, trang 1492–1501, 2017.
[48] C. Hummersone, T. Stokes và T. Brookes, “Về mặt nạ tỷ lệ lý tưởng là mục
tiêu của phân tích cảnh thính giác trên máy tính,” trong Phân tách nguồn mù: [75] V. Kothapally và JHL Hansen, “SkipConvGAN: Khử âm thanh giọng nói đơn âm
Những tiến bộ trong lý thuyết, thuật toán và ứng dụng, Springer, 2014, trang. bằng cách sử dụng các mạng đối nghịch chung thông qua mặt nạ tần số thời
349–368. gian phức tạp,” Giao dịch IEEE/ACM trên Xử lý âm thanh, lời nói và ngôn ngữ,
[49] S. Srinivasan, N. Roman và D. Wang, “Mặt nạ tần số thời gian theo tỷ lệ và tập. 30, trang 1600–1613, 2022.
nhị phân để nhận dạng giọng nói hiệu quả,” Speech Communication, tập. 48, [76] O. Ernst, SE Chazan, S. Gannot và J. Goldberger, “Speech derever beration
không. 11, trang 1486–1501, 2006. sử dụng các mạng tích chập hoàn toàn,” trong Hội nghị xử lý tín hiệu châu Âu
[50] A. Narayanan và D. Wang, “Ước tính tỷ lệ mặt nạ lý tưởng bằng cách sử dụng lần thứ 26 (EUSIPCO), 2018, trang 390–394.
mạng thần kinh sâu để nhận dạng giọng nói mạnh mẽ,” trong Hội nghị quốc tế [77] V. Kothapally và cộng sự, “Bỏ qua ConvNet: Bỏ qua mạng nơ ron tích chập để
IEEE về Xử lý âm thanh, giọng nói và tín hiệu (ICASSP), 2013, trang 7092–7096. khử vang giọng nói bằng cách sử dụng ánh xạ quang phổ được làm mịn tối ưu,”
trong Kỷ yếu của Interspeech, 2020, trang 3935–3939.
[51] Y. Wang, A. Narayanan và D. Wang, “Về các mục tiêu đào tạo để tách giọng nói [78] D. Ribas, J. Llombart, A. Miguel và L. Vicente, “Tăng cường giọng nói sâu
có giám sát,” Giao dịch IEEE/ACM về Xử lý âm thanh, lời nói và ngôn ngữ, tập. cho các tín hiệu dội lại và nhiễu bằng cách sử dụng các mạng dư rộng,” arXiv,
22, không. 12, trang 1849–1858, 2014. tập. abs/1901.00660, 2019.
[52] K. Han và cộng sự, “Học ánh xạ quang phổ để giảm âm và khử nhiễu giọng nói,” [79] X. Xiao và cộng sự, “Các hệ thống NTU-ADSC cho thử thách âm vang năm 2014,”
Giao dịch IEEE/ACM trên Xử lý âm thanh, lời nói và ngôn ngữ, tập. 23, không. trong Kỷ yếu Hội thảo Thử thách âm vang, 2014.
6, trang 982–992, 2015. [80] C. Dong, C. C. Loy, K. He và X. Tang, “"Siêu phân giải hình ảnh bằng cách sử
[53] ZQ Wang, J. Le Roux, D. Wang và JR Hershey, “Tách lời nói từ đầu đến cuối dụng các mạng tích chập sâu,” Giao dịch của IEEE về Phân tích mẫu và trí tuệ
với tái cấu trúc giai đoạn lặp mở,” trong Kỷ yếu của Interspeech, 2018, trang máy, tập 38, số 2, trang 295 –307, 2016.
2708–2712. [81] J. Yu và cộng sự, “Tạo hình ảnh sáng tạo với sự chú ý theo ngữ cảnh,” trong
[54] ZQ Wang, K. Tan và D. Wang, “Tái cấu trúc pha dựa trên học sâu để tách loa: Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, 2018, trang 5505-5514.
Một góc nhìn lượng giác,” trong Hội nghị quốc tế IEEE về Xử lý âm học, lời
nói và tín hiệu (ICASSP), 2019, trang 71 –75. [82] P. Ekstrand, “Mở rộng băng thông của tín hiệu âm thanh bằng cách sao chép
dải quang phổ,” trong Kỷ yếu của Hội thảo IEEE Benelux về Xử lý và mã hóa âm
[55] Y. Zhao, ZQ Wang và D. Wang, “Học sâu hai giai đoạn để tăng cường giọng nói thanh dựa trên mô hình (MPCA), 2002.
ồn ào-âm vang,” Giao dịch IEEE/ACM trên Xử lý âm thanh, giọng nói và ngôn [83] V. Kuleshov, SZ Enam và S. Ermon, “Siêu phân giải âm thanh sử dụng mạng thần
ngữ, tập. 27, không. 1, trang 53–62, 2019. kinh,” trong ICLR (Workshop Track), 2017.
[56] H. Erdogan, JR Hershey, S. Watanabe và J. Le Roux, “Phân tách giọng nói theo [84] TY Lim và cộng sự, “Mạng tần số thời gian dành cho độ phân giải siêu cao của
pha và tăng cường nhận dạng bằng cách sử dụng mạng thần kinh hồi quy sâu,” âm thanh,” trong Hội nghị quốc tế về xử lý âm thanh, giọng nói và tín hiệu
trong Hội nghị quốc tế IEEE về Xử lý âm thanh, lời nói và tín hiệu (ICASSP) , của IEEE (ICASSP), 2018, trang 646–650.
2015, trang 708–712. [85] S. Birnbaum và cộng sự, “FiLM tạm thời: Nắm bắt các phụ thuộc chuỗi tầm xa
[57] Y. Hu và cộng sự, “DCCRN: Mạng hồi quy tích chập phức hợp sâu để tăng cường với các điều chế thông minh về tính năng,” trong Những tiến bộ trong Hệ thống
giọng nói nhận biết pha,” trong Kỷ yếu của Interspeech, 2020, trang 2472–2476. xử lý thông tin thần kinh, tập. 32, 2019.
[86] NC Rakotonirina, “Tự chú ý để có độ phân giải siêu cao của âm thanh,” trong
[58] G. Yu và cộng sự, “DBT-Net: Ước tính pha và cường độ liên kết nhánh kép với Hội thảo quốc tế lần thứ 31 của IEEE về Máy học để xử lý tín hiệu (MLSP),
máy biến áp chú ý trong chú ý để tăng cường giọng nói đơn âm,” arXiv, tập. 2021, trang 1–6.
abs/2202.07931, 2022. [87] H. Wang và D. Wang, “Hướng tới khả năng siêu phân giải lời nói mạnh mẽ,”
[59] A. Li và cộng sự, “Hai đầu tốt hơn một: Cách tiếp cận ánh xạ quang phổ phức Giao dịch IEEE/ACM về xử lý âm thanh, lời nói và ngôn ngữ, tập. 29, tr. 2058–
hợp hai giai đoạn để tăng cường giọng nói đơn âm,” Giao dịch IEEE/ACM về Xử 2066, 2021.
lý âm thanh, lời nói và ngôn ngữ, tập. 29, trang 1829–1843, 2021. [88] H. Liu và cộng sự, “Bộ phát âm thần kinh là tất cả những gì bạn cần để có độ phân giải
siêu cao của giọng nói,” arXiv, tập. abs/2203.14941, 2022.
[60] A. Li và cộng sự, “Khung khử nhiễu và khử âm vang đồng thời với việc tách [89] S. Braun và I. Tashev, “Một cái nhìn tổng hợp về các hàm mất mát để tăng
rời mục tiêu,” trong Kỷ yếu của Interspeech, 2021, trang 2801–2805. cường giọng nói dựa trên học sâu được giám sát,” trong Hội nghị quốc tế lần
thứ 44 về Viễn thông và Xử lý tín hiệu (TSP), 2021, trang 72–76.
[61] K. Tan và D. Wang, “Học ánh xạ quang phổ phức tạp với các mạng hồi quy tích
chập có kiểm soát để tăng cường giọng nói đơn âm,” [90] J. Lee, J. Skoglund, T. Shabestary và HG Kang, “Các thuật toán học chung
Giao dịch IEEE/ACM về xử lý âm thanh, lời nói và ngôn ngữ, tập. 28, trang 380– theo giai đoạn để tăng cường giọng nói dựa trên học sâu,”
390, 2020. Thư xử lý tín hiệu IEEE, tập. 25, không. 8, trang 1276–1280, 2018.
[62] H. Kuttruff, Room Acoustics, CRC Press, tái bản lần thứ 6, 2016. [91] K. Wilson và cộng sự, “Khám phá sự đánh đổi trong các mô hình để tăng cường
[63] J. Bradley, H. Sato và M. Picard, “Về tầm quan trọng của phản xạ sớm đối với giọng nói có độ trễ thấp,” trong Hội thảo quốc tế lần thứ 16 về Tăng cường
lời nói trong phòng,” Tạp chí của Hiệp hội Âm học Hoa Kỳ, tập. 113, không. tín hiệu âm thanh (IWAENC), 2018, trang 366–370.
6, trang 3233–3244, 2003. [92] A. Pandey và D. Wang, “Mạng nơ-ron được kết nối dày đặc với các cấu trúc
[64] TJ Schultz, 'Sự khuếch tán trong phòng âm vang," Tạp chí Âm thanh và Âm thanh xoắn giãn nở để tăng cường giọng nói theo thời gian thực trong miền thời
Rung, vol. 16, không. 1, trang 17–28, 1971. gian,” trong Hội nghị quốc tế IEEE về Xử lý âm thanh, giọng nói và tín hiệu
[65] D. Gelbart và N. Morgan, “Nhân đôi rắc rối: xử lý tiếng ồn và âm vang trong (ICASSP), 2020, trang. 6629–6633.
nhận dạng giọng nói tự động trường xa,” trong Hội nghị Quốc tế lần thứ 7 về [93] D. Ulyanov, A. Vedaldi và V. Lempitsky, “Chuẩn hóa sơ thẩm: Thành phần còn
Xử lý Ngôn ngữ Nói (ICSLP), 2002, trang 2185–2188. thiếu để cách điệu nhanh,” arXiv, tập. abs/1607.08022, 2016.
[94] K. He, X. Zhang, S. Ren và J. Sun, “Đi sâu vào bộ chỉnh lưu: Vượt qua hiệu
[66] Y. Luo và N. Mesgarani, “Giảm âm vang và tách kênh đơn thời gian thực với suất ở cấp độ con người trong phân loại ImageNet,” trong Hội nghị Quốc tế về
mạng phân tách âm thanh miền thời gian,” trong Kỷ yếu của Interspeech, 2018, Thị giác Máy tính của IEEE (ICCV), 2015, trang. 1026–1034.
trang 342–346.
[67] N. Roman và J. Woodruff, “Tính dễ hiểu của lời nói ồn ào dội lại với mặt nạ [95] W. Shi và cộng sự, “Siêu phân giải video và hình ảnh đơn thời gian thực sử
nhị phân lý tưởng,” Tạp chí của Hiệp hội Âm học Hoa Kỳ, tập. 130, không. 4, dụng mạng thần kinh tích chập pixel phụ hiệu quả,” trong IEEE Computer Vision
trang 2153–2161, 2011. and Pattern Recognition (CVPR), 2016, trang 1874–1883 .
[68] T. May và T. Gerkmann, “Khái quát hóa phương pháp học có giám sát để ước [96] A. Rix, J. Beerends, M. Hollier và A. Hekstra, “Đánh giá cảm quan chất lượng
lượng mặt nạ nhị phân,” trong Hội thảo quốc tế lần thứ 14 về Tăng cường tín tiếng nói (PESQ)-một phương pháp mới để đánh giá chất lượng tiếng nói của
hiệu âm thanh (IWAENC), trang 154–158, 2014. mạng điện thoại và codec,” trong Hội nghị Quốc tế IEEE
14
on Acoustics, Speech and Signal Processing (ICASSP), 2001, tập. 2, tr. [123] J. Serrà, J. Pons và S. Pascual, “SESQA: Học bán giám sát để đánh giá chất lượng
749–752. lời nói,” trong Hội nghị quốc tế IEEE về Xử lý âm học, lời nói và tín hiệu
[97] CH Taal, RC Hendriks, R. Heusdens và J. Jensen, “Một thước đo độ rõ khách quan (ICASSP), 2021, trang 381–385 .
trong thời gian ngắn đối với lời nói ồn ào có trọng số tần số theo thời gian,” [124] CKA Reddy, V. Gopal và R. Cutler, “DNSMOS: Một thước đo chất lượng giọng nói
trong Hội nghị Quốc tế IEEE về Xử lý Âm học, Lời nói và Tín hiệu (ICASSP), 2010, khách quan theo cảm nhận không xâm nhập để đánh giá các bộ khử tiếng ồn,” trong
trang 4214–4217. Hội nghị quốc tế về Âm học, Lời nói và Xử lý Tín hiệu (ICASSP), 2021 của IEEE,
[98] X. Mao và cộng sự, “Mạng đối thủ tạo ra bình phương nhỏ nhất,” trong Hội nghị Quốc trang. 6493–6497.
tế về Tầm nhìn Máy tính (ICCV) của IEEE, 2017, trang 2813–2821. [125] CKA Reddy, V. Gopal và R. Cutler, “DNSMOS P.835: Một thước đo chất lượng giọng
nói khách quan theo cảm nhận không xâm phạm để đánh giá các bộ khử tiếng ồn,”
[99] C. Veaux, J. Yamagishi và S. King, “Ngân hàng giọng nói: Thiết kế, thu thập và trong Hội nghị quốc tế IEEE về Xử lý âm học, lời nói và tín hiệu (ICASSP), 2022 ,
phân tích dữ liệu của một cơ sở dữ liệu giọng nói có giọng khu vực rộng lớn,” trang 886–890.
trong Hội nghị quốc tế về Cơ sở dữ liệu giọng nói và đánh giá COCOSDA, 2013, trang [126] JF Gemmeke và cộng sự, “Bộ âm thanh: Tập dữ liệu bản thể học và con người gắn
.1–4. nhãn cho các sự kiện âm thanh,” trong Hội nghị quốc tế IEEE về Xử lý âm học, lời
[100] J. Thiemann, N. Ito và E. Vincent, “Cơ sở dữ liệu tiếng ồn âm thanh đa kênh môi nói và tín hiệu (ICASSP), 2017, trang 776–780.
trường đa dạng (DEMAND): Cơ sở dữ liệu ghi âm tiếng ồn môi trường đa kênh,” trong [127] T. Ko và cộng sự, “Một nghiên cứu về tăng cường dữ liệu của giọng nói dội lại để
Kỷ yếu các cuộc họp về Acous tics, tập. 19, không. 1, Hiệp hội Âm học Hoa Kỳ, 2013. nhận dạng giọng nói mạnh mẽ,” trong Hội nghị Quốc tế IEEE về Âm học, Lời nói và Xử
lý Tín hiệu (ICASSP), 2017, trang 5220–5224.
[101] T. Robinson và cộng sự, “WSJCAMO: Kho ngữ liệu tiếng Anh của Anh dành cho nhận [128] M. Krawczyk và T. Gerkmann, “Tái tạo pha STFT trong giọng nói lồng tiếng để tăng
dạng giọng nói liên tục với vốn từ vựng lớn,” trong Hội nghị Quốc tế IEEE về Âm cường giọng nói một kênh được cải thiện,” Giao dịch của IEEE về Xử lý âm thanh,
thanh, Lời nói và Xử lý Tín hiệu (ICASSP), 1995, trang 81–84. giọng nói và ngôn ngữ, tập. 22, không. 12, trang 1931–1940, 2014.
[102] M. Lincoln, I. McCowan, J. Vepa và HK Maganti, “Khối liệu hình ảnh âm thanh đa
kênh của Tạp chí Phố Wall (MC-WSJ-AV): đặc điểm kỹ thuật và các thử nghiệm ban
đầu,” trong Hội thảo IEEE về Nhận dạng giọng nói tự động và Hiểu biết, 2005, trang
357–362.
[103] J. Yamagishi, C. Veaux và K. MacDonald, “CSTR VCTK Corpus: English multi- speaker
corpus for CSTR voice cloning toolkit (phiên bản 0.92),” Đại học Edinburgh. Trung
tâm Nghiên cứu Công nghệ Lời nói (CSTR), 2019.
[104] TA Hsieh và cộng sự, “Cải thiện chất lượng nhận thức bằng mất nhận thức được củng
cố bằng điện thoại bằng cách sử dụng khoảng cách wasserstein để tăng cường giọng
nói,” arXiv, tập. abs/2010.15174, 2020.
[105] SW Fu và cộng sự, “MetricGAN+: Phiên bản cải tiến của MetricGAN để cải thiện
giọng nói,” trong Kỷ yếu của Interspeech, 2021, trang 201–205.
[106] I. Loshchilov và F. Hutter, “Chính quy hóa phân rã trọng lượng tách rời,” arXiv,
tập. abs/1711.05101, 2017.
[107] Y. Hu và PC Loizou, “Đánh giá các biện pháp chất lượng khách quan để tăng cường
giọng nói,” Giao dịch của IEEE về Xử lý âm thanh, lời nói và ngôn ngữ, tập. 16,
không. 1, trang 229–238, 2008.
[108] P. Isola và cộng sự, “Bản dịch từ hình ảnh sang hình ảnh với các mạng đối nghịch
có điều kiện,” trong Hội nghị IEEE về Tầm nhìn Máy tính và Nhận dạng Mẫu (CVPR),
2017, trang 5967–5976.
[109] Z. Liu và cộng sự, “Máy biến áp Swin: Máy biến áp thị giác phân cấp sử dụng các
cửa sổ dịch chuyển,” trong Kỷ yếu của Hội nghị Quốc tế IEEE/CVF về Thị giác Máy
tính, 2021, trang 10012–10022.
[110] N. Virag, “Tăng cường giọng nói dựa trên các thuộc tính mặt nạ của hệ thống thính
giác,” trong Hội nghị Quốc tế IEEE về Xử lý Âm học, Lời nói và Tín hiệu (ICASSP),
1995, trang 796–799.
[111] H. Zheng và cộng sự, “Cải thiện mạng nơ-ron sâu bằng cách sử dụng các đơn vị
softplus,” trong Hội nghị chung quốc tế về mạng nơ-ron (IJCNN), 2015.
[112] N. Kitawaki, H. Nagabuchi và K. Itoh, “Đánh giá chất lượng khách quan cho các hệ
thống mã hóa giọng nói tốc độ bit thấp,” Tạp chí IEEE về các lĩnh vực được chọn
trong truyền thông, tập. 16, không. 2, trang 242–248, 1988.
[113] J. Hansen và B. Pellom, “Một giao thức đánh giá chất lượng hiệu quả cho các thuật
toán nâng cao giọng nói,” trong Hội nghị Quốc tế về Xử lý Ngôn ngữ Nói (ICSL),
1998, trang 2819–2822.
[114] J. Tribolet, P. Noll, B. McDermott và R. Crochiere, “Một nghiên cứu về độ phức
tạp và chất lượng của bộ mã hóa dạng sóng lời nói,” trong Hội nghị Quốc tế IEEE về
Âm học, Lời nói và Xử lý Tín hiệu (ICASSP), 1978, trang 586–590.
[115] TH Falk, C. Zheng và W. Chan, “Một thước đo chất lượng không xâm nhập và độ rõ
của lời nói dội lại và khử vang,” Giao dịch của IEEE về Xử lý âm thanh, lời nói và
ngôn ngữ, tập. 18, không. 7, trang 1766–1774, 2010.
[116] RC Streijl, S. Winkler và DS Hands, “Xem xét lại điểm ý kiến trung bình (MOS):
phương pháp và ứng dụng, hạn chế và lựa chọn thay thế,”
Hệ thống đa phương tiện, vol. 22, không. 2, trang 213–227, 2016.
[117] JH Friedman, “Các đường hồi quy thích ứng đa biến,” The Annals of Statistics,
tập. 19, không. 1, trang 1–67, 1991.
[118] Khuyến nghị ITU-T P.835, “Phương pháp kiểm tra chủ quan để đánh giá các hệ thống
liên lạc bằng giọng nói bao gồm thuật toán triệt tiêu tiếng ồn,” Liên minh Viễn
thông Quốc tế, Geneva, 2003.
[119] D. Klatt, “Dự đoán khoảng cách ngữ âm được cảm nhận từ quang phổ dải tới hạn:
Bước đầu tiên,” trong Hội nghị Quốc tế IEEE về Âm học, Lời nói và Xử lý Tín hiệu
(ICASSP), 1982, trang 1278–1281.
[120] SW Fu, Y. Tsao, HT Hwang và HM Wang, “Quality-Net: Mô hình đánh giá chất lượng
lời nói không xâm lấn từ đầu đến cuối Dựa trên BLSTM,” trong Kỷ yếu của Interspeech,
2018, trang 1873– 1877.
[121] AR Avila và cộng sự, “Đánh giá chất lượng giọng nói không xâm nhập bằng cách sử
dụng mạng thần kinh,” trong Hội nghị quốc tế IEEE về Âm học, Lời nói và Xử lý tín
hiệu (ICASSP), 2019, trang 631–635.
[122] AA Catellier và SD Voran, “Wawanets: Cách tiếp cận dựa trên dạng sóng phức không
tham chiếu để ước tính chất lượng âm thanh băng hẹp và băng rộng,” trong Hội nghị
quốc tế IEEE về Xử lý âm học, lời nói và tín hiệu (ICASSP), 2020, trang. 331–335.
15
1 1 1 1
[AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá
0 0 0 0
1 1 1 1
0,5 1 1,5 0,5 1 1,5 0,5 1 1,5 0,5 1 1,5
Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s]
(a) ồn ào (b) Số liệuGAN+ (c) DEMUS (d) CÁC GIAI ĐOẠN
1 1 1
[AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá
0 0 0
1 1 1
0,5 1 1,5 0,5 1 1,5 0,5 1 1,5
Thời gian [s] Thời gian [s] Thời gian [s]
(e) PFPL (f) CMGAN (g) Sạch sẽ
số 8 số 8 số 8 số 8
6 6 6 6
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
4 4 4 4
2 2 2 2
0 0 0 0
0,5 1 1,5 0,5 1 1,5 0,5 1 1,5 0,5 1 1,5
Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s]
(h) ồn ào (i) MetricGAN+ (j) DEMUS (k) CÁC GIAI ĐOẠN
6 6 6
6 6 6
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
4 4 4
2 2 2
0
40,5 1 1,5 40 0,5 1 1,5 4 0
0,5 1 1,5
số 8 8 số 8 8 số 8
(l) PFPL (m) CMGAN (n) Sạch sẽ
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
2 2 2
6 6 6 6
6 6 6 6 6
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
4 4 4 4
2 0 2 0 2 0 2
0,5 1,5 0,5 1 1,5 1 1,5 0,5 1 1,5

4 0
0,5 1 1 4 1,5 0
4 0,5 1 4
1,5
0
0,5 4 0,5 1 1,5
0
0,5 1 1,5
Thời gian [s]
Thời gian [s] Thời gian [s]
Thời gian [s]
(o) ồn ào (p) Số liệuGAN+ (q) DEMUS (r) CÁC GIAI ĐOẠN

[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
2 2 2 2 2
6 6 6
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
4 4 4
2 2 2
0 0,5 0 1 0,5 1,5 1 0 0,5 1,5 0 1 0,5 0 1 1,5 0,5 1,5 10,5 1 1,5 1,5
0 0 0
0,5 1 1,5 0,5 1 1,5 0,5 1 1,5
Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s] Thời gian [s]
(các) PFPL (t) CMGAN (u) Sạch sẽ
Hình 9: Trực quan hóa các phương pháp tiếp cận chủ quan dưới tiếng ồn quán cà phê dải rộng (bộ dữ liệu DEMAND) ở SNR = 0 dB.
(ag) biểu thị tín hiệu miền thời gian, trong khi (hn) là biểu diễn cường độ TF tính bằng dB và (ou) là BPD được tái tạo của
biểu diễn pha TF đã cho. ( ) và ( ) lần lượt phản ánh các biến dạng về thời gian và biểu diễn cường độ TF.
16
1 1 1 1
[AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá
0 0 0 0
1 1 1 1
0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời
(a) ồn ào (b) Số liệuGAN+ (c) DEMUS (d) CÁC GIAI ĐOẠN

1 1 1
[AU]
trị
Giá [AU]
trị
Giá [AU]
trị
Giá
0 0 0
1 1 1
0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời
gian [s] gian [s] gian [s]
(e) PFPL (f) CMGAN (g) Sạch sẽ

6 6 6 6
4 4 4 4
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
2 2 2 2
0 0 0 0
(h) ồn ào (i) MetricGAN+ (j) DEMUCS (k) CÁC GIAI ĐOẠN
6 6 6
4 4 4
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
2 2 2
0 0 0
0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời 0,5 1 1,5 2 2,5 3 3,5 Thời
6 gian [s]
6 6
gian [s] gian [s]
(l) PFPL (m) CMGAN (n) Sạch sẽ

6 6 6 6
4 4 4
4 4 4 4
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
số 8 số 8
2 2 2 2
2 2 2
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
0 0 0 0
gian [s]
6 gian [s]
6 gian [s] gian [s]
(o) ồn ào (p) Số liệuGAN+ (q) DEMUS (r) CÁC GIAI ĐOẠN
0 .5 2 2.5
0 0,5
3 3.5
6 1 1,5
4 2 2,5 30 3,5
0,5 Thời
1 1,5
6 2 2,5 30,5
3,5141,5
Thời
26 2,5 3 3,5 Thời
Thời gian [s]
gian [s] 4
gian [s] 4
gian [s] 4
[kHz]
Tần
số [kHz]
Tần
số [kHz]
Tần
số
2 2 2
2 0,5 1 1,5 2 2,5 3 3,5 20

[kHz]
Tần
số [kHz]
Tần
số
0 0
0,5 1 1,5 2 2,5 3 3,5 0,5 1 1,5 2 2,5 3 3,5
(các) PFPL (t) CMGAN (u) Sạch sẽ
Hình 10: Trực quan hóa các phương pháp tiếp cận chủ 0
quan dưới tiếng ồn của chuông cửa dải hẹp (Bộ dữ liệu Freesound) ở SNR =
0 1 1,5 2 2,5
3 dB. (ag) 3 tín
biểu thị 3,5
1 hiệu
1,5
0,5 2 thời
miền 2,5 3 trong
gian, 3,5khi (hn)0,5 1 diễn
là biểu 1,5 2 độ2,5
cường 3 bằng
TF tính 3,5dB và (ou) là BPD được tái tạo
của biểu diễn pha TF đã cho. ( ) và ( ) lần lượt phản ánh các biến dạng về thời gian và biểu diễn cường độ TF.

Cmgan PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cmgan PDF

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

CMGAN: Metric-GAN dựa trên cấu hình cho

Tăng cường giọng nói đơn âm

gian [s] gian [s] gian [s] gian [s]

(b) Bộ tuân thủ hai giai đoạn (TS-Conformer)

(a) Kiến trúc bộ tạo mã hóa-giải mã (c) Bộ phân biệt số liệu

Hình 2: Tổng quan về kiến trúc CMGAN được đề xuất

Tương tự như trong [13], [24], cường độ che khuất Xˆ trước

LThời gian = Ex,xˆ x xˆ1

(b) Mất phân biệt đối xử

(c) Tổn thất máy phát đối nghịch

sigmoid 3,34 4,52 3,80 4,02 10,70 0,96

CD LLR SRMR 2 3 Trung bìnhFWSegSNR 2 3 SRMR-thật

U-Net[76] 4,75 4,56 4 .77 5,47

Bỏ quaConvNet [77] 7,27

CD LLR SRMR 2 3 Trung bìnhFWSegSNR 2 3 SRMR-thật

gian [s] gian [s] gian [s] gian [s]

Thời gian [ms] Thời gian [ms] Thời gian [ms]

Số liệuGAN+ DEMUCS GIAI ĐOẠN PFPL CMGAN

3.6 3.4 3.2

2.4 1.8 1.4 1.2

thích trong các biểu diễn thời gian và cường độ TF theo ( )

(a) ồn ào (b) Số liệuGAN+ (c) DEMUS (d) CÁC GIAI ĐOẠN

(e) PFPL (f) CMGAN (g) Sạch sẽ

0,5 1,5 0,5 1 1,5 1 1,5 0,5 1 1,5

(o) ồn ào (p) Số liệuGAN+ (q) DEMUS (r) CÁC GIAI ĐOẠN

(các) PFPL (t) CMGAN (u) Sạch sẽ

(a) ồn ào (b) Số liệuGAN+ (c) DEMUS (d) CÁC GIAI ĐOẠN

(e) PFPL (f) CMGAN (g) Sạch sẽ

(h) ồn ào (i) MetricGAN+ (j) DEMUCS (k) CÁC GIAI ĐOẠN

(l) PFPL (m) CMGAN (n) Sạch sẽ

(o) ồn ào (p) Số liệuGAN+ (q) DEMUS (r) CÁC GIAI ĐOẠN

2 0,5 1 1,5 2 2,5 3 3,5 20

(các) PFPL (t) CMGAN (u) Sạch sẽ

You might also like