Professional Documents
Culture Documents
I Articulatory Phonology
I Articulatory Phonology
_ Âm vị được khớp nối như là một phần của một âm tiết. Đa số các âm tiết
bao gồm nhiều hơn một âm vị và hầu hết các âm tiết được tạo thành từ một
hoặc nhiều nguyên âm và phụ âm
_ Articulatory Âm vị học là một bài phát biểu của con người sản xuất dựa
trên lý thuyết âm vị học mà liên quan đến những cử chỉ như là các đơn vị cơ
bản của âm vị học. Một cử chỉ "là sự chuyển động của một articulator, từ
một vị trí đặc trưng của một trong những âm thanh articulatory nói đến một
vị trí đặc trưng articulatory của bài phát biểu tiếp theo âm thanh
_ Hệ thống các cử chỉ này được dựa trên các thông số liên quan đến đường
âm môi, lưỡi, thân lưỡi, chỉ màng khẩu cái và thanh môn. Bài phát biểu nhận
thức là nhận thức của cử chỉ.
Articulatory âm vị học là một lý thuyết ngôn ngữ học rất quan trọng ban
đầu được đề xuất vào năm 1986 bởi Catherine Browman của Haskins phòng
thí nghiệm và Louis M. Goldstein của Đại học Yale và Haskins. Lý thuyết
này ngôn ngữ được xây dựng dựa trên điểm bài phát biểu quan điểm của con
người sản xuất.
_ Trong các mô hình đơn giản của lý thuyết articulatory, âm vị từng có một
mục tiêu lý tưởng articulatory cho mỗi articulator. Đó là mục tiêu lý tưởng
cho một âm vị là bất biến
_ Ở cấp độ trừu tượng nhất của động cơ từng lập kế hoạch articulator có thể
được coi là có một vị trí mục tiêu mà nó phải cố gắng để đạt được cho mỗi
âm vị.
Hình 1: Hai mục tiêu lý tưởng cho một articulator articulatory duy nhất và
hai âm vị lân cận. PB1, PB2 và PB3 là các ranh giới âm vị lý tưởng cho âm
vị 1 và âm vị 2.
_ Âm vị là các điểm ranh giới giữa hai mục tiêu mà hai âm vị âm vị đóng
góp xấp xỉ như nhau đối với các mô hình articulatory hoặc âm thanh
_ Một quá trình chuyển đổi "" trong bài phát biểu được gây ra bởi sự chuyển
động của articulators giữa các mục tiêu âm vị. Âm vị có thể được quy định
trong điều khoản của một hay nhiều mục tiêu lý tưởng articulatory.
Hình 2: Một lý tưởng articulatory chuyển đổi từ mục tiêu của một âm vị
(T1) với mục tiêu của một âm vị (T2). PB đại diện cho các vị trí gần đúng
của ranh giới "âm vị
__ Mục tiêu undershoot xảy ra khi không có đủ thời gian cho một articulator
để đạt vị trí mục tiêu. Mục tiêu undershoot có thể xảy ra trong cả hai nguyên
âm và phụ âm.
Hình 3: Con số này minh họa undershoot mục tiêu. Trong ví dụ này là mục
tiêu lý tưởng của âm vị 2 (T2) được đại diện bởi các giá trị vị trí articulator
IT trong khi UT đại diện cho các giá trị mục tiêu hô. Điều này sẽ là điển
hình của một nguyên âm ngắn truy vấn thấp giữa hai phế nang hoặc dừng
khẩu cái âm nhạc, ví dụ.
_ Articulatory cử chỉ chồng lên nhau. Articulatory chồng lên nhau là cơ sở
của coarticulation.
Hình 4: Những cử chỉ của ba articulators (A1, A2, A3) chồng lên nhau trong
thời gian khi họ đi qua ba mục tiêu lý tưởng hoá âm vị (T1, T2, T3).
Co cong thuc
_ Giả sử rằng các mục tiêu articulatory của mỗi âm vị luôn luôn tồn tại trong
một thời hạn nhất định quanh mục tiêu lý tưởng với bài phát biểu rõ ràng và
tốc độ phát âm bình thường
_ Xác định trọng điểm: tối đa của STM (ranh giới của âm vị), tối thiểu của
STM (trung tâm của âm vị hạt nhân), tối đa FSTM - Folding chuyển Đo
(ranh giới của một phần hạt nhân - vùng mục tiêu và một phần chuyển tiếp -
coariculation khu vực).
_ Sử dụng lệnh thứ hai RTD để nội suy các thông số âm thanh
_ Phân hủy và tái tạo lại một phần hợp tác phát âm của từng âm vị với các
ngữ cảnh khác nhau.
VI> Concatenative TTS
_ Có bốn loại chính của công nghệ TTS: ghép nối tổng hợp, tổng hợp
Formant, tổng hợp Articulatory, và tổng hợp dựa trên HMM.
_ tổng hợp ghép nối dựa trên nối (hoặc stringing với nhau) của các phân
đoạn của bài phát biểu ghi nhận
_ Nói chung, tổng hợp ghép nối tạo ra giọng nói tự nhiên nhất-sounding tổng
hợp
_ Có ba phụ chính-loại tổng hợp ghép nối: lựa chọn đơn vị tổng hợp, tổng
hợp âm kép, và tham số phân nối tổng hợp
+ Âm kép (hoặc triphones) có ích trong tổng hợp giọng nói, vì kết hợp âm
kép trước ghi lại để tạo ra âm thanh tổng hợp giọng nói tự nhiên hơn nhiều
so với kết hợp chỉ cần điện thoại đơn giản, bởi vì âm kép được thực hiện
bằng coarticulation ít hơn điện thoại. Trong thực tế, âm kép này vẫn thực
hiện bằng coarticulation.
+ Tổng hợp âm kép sử dụng một cơ sở dữ liệu giọng nói nhỏ chứa tất cả các
âm kép xảy ra trong một ngôn ngữ. Số lượng âm kép phụ thuộc vào ngôn
ngữ.
+ Trong tổng hợp âm kép, chỉ có một ví dụ của âm kép được chứa trong cơ
sở dữ liệu ngôn luận. Chất lượng của các bài phát biểu kết quả thường là tồi
tệ hơn so với các hệ thống đơn vị lựa chọn, nhưng tự nhiên hơn-sounding
hơn đầu ra của bộ tổng hợp formant
Các VNSpeech của MICA là một TTS âm kép với 389 âm kép (~ 2,5
MB)
_ Chúng ta phải suy nghĩ về một chi phí thấp, CHẤT LƯỢNG CAO và dễ
TTS SỬA ĐỔI CHO VOICE. Nhưng LÀM THẾ NÀO?
_ Bằng việc áp dụng mô hình coarticulation nền tảng TD, Chúng tôi Tin
Chúng tôi Có thể!!!
_ Kết hợp các kỹ thuật và phương pháp sau đây:
+ Tham số phân nối tổng hợp, nhưng bằng cách sử dụng tổng hợp chất
lượng cao thẳng *. Vì vậy, chúng tôi chỉ lưu trữ các thông số kích thước
thẳng nhỏ so với dữ liệu dạng sóng, và dễ dàng để sửa đổi các thông số
+ Bằng cách nhân tạo tổng hợp các phần chuyển đổi bằng cách sử dụng dựa
trên TD-co-phát âm mẫu, chúng ta có thể tổng hợp âm vị với các ngữ cảnh
khác nhau từ dữ liệu giới hạn (tương phản với TTS lựa chọn đơn vị mà
chúng ta cần âm vị trong tất cả các ngữ cảnh). Vì vậy, chi phí thấp.
Kawahara, H., "thẳng, thăm dò của các khía cạnh khác của vocoder:
Perceptually đẳng cấu phân hủy của các âm thanh bài phát biểu," Acoustic
Khoa học & Công nghệ, 27 (5): 349-353, 2006.
VIII> RESULTS