You are on page 1of 11

I>Articulatory Phonology

_ Âm vị được khớp nối như là một phần của một âm tiết. Đa số các âm tiết
bao gồm nhiều hơn một âm vị và hầu hết các âm tiết được tạo thành từ một
hoặc nhiều nguyên âm và phụ âm
_ Articulatory Âm vị học là một bài phát biểu của con người sản xuất dựa
trên lý thuyết âm vị học mà liên quan đến những cử chỉ như là các đơn vị cơ
bản của âm vị học. Một cử chỉ "là sự chuyển động của một articulator, từ
một vị trí đặc trưng của một trong những âm thanh articulatory nói đến một
vị trí đặc trưng articulatory của bài phát biểu tiếp theo âm thanh
_ Hệ thống các cử chỉ này được dựa trên các thông số liên quan đến đường
âm môi, lưỡi, thân lưỡi, chỉ màng khẩu cái và thanh môn. Bài phát biểu nhận
thức là nhận thức của cử chỉ.
 Articulatory âm vị học là một lý thuyết ngôn ngữ học rất quan trọng ban
đầu được đề xuất vào năm 1986 bởi Catherine Browman của Haskins phòng
thí nghiệm và Louis M. Goldstein của Đại học Yale và Haskins. Lý thuyết
này ngôn ngữ được xây dựng dựa trên điểm bài phát biểu quan điểm của con
người sản xuất.
_ Trong các mô hình đơn giản của lý thuyết articulatory, âm vị từng có một
mục tiêu lý tưởng articulatory cho mỗi articulator. Đó là mục tiêu lý tưởng
cho một âm vị là bất biến
_ Ở cấp độ trừu tượng nhất của động cơ từng lập kế hoạch articulator có thể
được coi là có một vị trí mục tiêu mà nó phải cố gắng để đạt được cho mỗi
âm vị.

Hình 1: Hai mục tiêu lý tưởng cho một articulator articulatory duy nhất và
hai âm vị lân cận. PB1, PB2 và PB3 là các ranh giới âm vị lý tưởng cho âm
vị 1 và âm vị 2.
_ Âm vị là các điểm ranh giới giữa hai mục tiêu mà hai âm vị âm vị đóng
góp xấp xỉ như nhau đối với các mô hình articulatory hoặc âm thanh
_ Một quá trình chuyển đổi "" trong bài phát biểu được gây ra bởi sự chuyển
động của articulators giữa các mục tiêu âm vị. Âm vị có thể được quy định
trong điều khoản của một hay nhiều mục tiêu lý tưởng articulatory.

Hình 2: Một lý tưởng articulatory chuyển đổi từ mục tiêu của một âm vị
(T1) với mục tiêu của một âm vị (T2). PB đại diện cho các vị trí gần đúng
của ranh giới "âm vị
__ Mục tiêu undershoot xảy ra khi không có đủ thời gian cho một articulator
để đạt vị trí mục tiêu. Mục tiêu undershoot có thể xảy ra trong cả hai nguyên
âm và phụ âm.
Hình 3: Con số này minh họa undershoot mục tiêu. Trong ví dụ này là mục
tiêu lý tưởng của âm vị 2 (T2) được đại diện bởi các giá trị vị trí articulator
IT trong khi UT đại diện cho các giá trị mục tiêu hô. Điều này sẽ là điển
hình của một nguyên âm ngắn truy vấn thấp giữa hai phế nang hoặc dừng
khẩu cái âm nhạc, ví dụ.
_ Articulatory cử chỉ chồng lên nhau. Articulatory chồng lên nhau là cơ sở
của coarticulation.

Hình 4: Những cử chỉ của ba articulators (A1, A2, A3) chồng lên nhau trong
thời gian khi họ đi qua ba mục tiêu lý tưởng hoá âm vị (T1, T2, T3).

II> Co-articulation of Speech


_ Coarticulation có xu hướng mạnh mẽ hơn trong âm tiết hơn là qua các
ranh giới âm tiết
_ Greater độ của coarticulation giữa các âm vị trong âm tiết tăng sự tích hợp
cảm nhận của âm tiết. Đó là, độ lớn của coarticulation tăng sự nhận thức
rằng các âm vị trong một âm tiết được kết nối.
_ Ảnh hưởng đến phát âm nguyên âm của phụ âm liền kề (và liền kề nguyên
âm). Phụ âm ảnh hưởng đến phát âm của nguyên âm lân cận (và phụ âm lân
cận khác).
_ Một số âm thanh có nhiều kháng coarticulation hơn những âm thanh khác.
Điều này có thể là do sự khác biệt trong thời gian âm vị, khác biệt trong
quán tính của articulators tương phản, khác biệt về khoảng cách di chuyển
articulator.
_ Coarticulation luôn luôn xảy ra trong các ngôn ngữ ALL cho các chuỗi tất
cả các âm thanh không phân biệt tạm dừng. Nếu không có coarticulation
thích hợp (ví dụ trong bài phát biểu tổng hợp nghèo) trong bài phát biểu kết
quả âm thanh không tự nhiên và là khó hiểu.
_ Coarticulation không xảy ra với các thông số chỉ đường mà còn giai điệu
(đối với ngôn ngữ âm
_ Chúng tôi có thể làm tăng thời gian, và do đó có thể tránh undershoot.

III> Temporal Decomposition


_ Thời gian phân hủy (TD) [Altal, 1983; Chiến, Akagi *, 2003], đó là một
thủ tục phân tích dựa trên một mô hình tuyến tính của các tác động của hợp
tác phát âm, sản lượng xấp xỉ tuyến tính của một trình tự thời gian của các
thông số quang phổ về một loạt các thời gian chồng chéo chức năng và hàng
loạt sự kiện liên quan của một vectơ sự kiện
Co cong thuc
_ nơi ak và φk (n) là sự kiện thứ k vector (tĩnh tính năng) và sự kiện thứ k
chức năng (năng động, tính năng - có liên quan đến hiệu ứng coarticulation),
tương ứng.
 Giáo sư Masato Akagi là với Nhật Bản nâng cao Viện Khoa học và Công
nghệ (JAIST). Ông hiện là Dean của IS trường của JAIST, cũng là Chủ tịch
Acoustical Society của Nhật Bản.
_ Trình tự thứ hai mô hình TD RTD sử dụng trong [Chien-Akagi, 2003],
trong đó chỉ có hai chức năng sự kiện liền kề có thể chồng lên nhau như
hình. 5.
Co cong thuc
_ nơi nk và nk 1 là vị trí của các sự kiện và 1 k k sự kiện, tương ứng.
Hình. 5. Ví dụ về mô hình thứ hai TD trật tự

IV> Speech Perception with Effects of


Coarticulation
_ Furui * (1986) tiến hành nhiều thí nghiệm để kiểm tra mối quan hệ giữa
tính năng quang phổ năng động và xác định các âm tiết tiếng Nhật (CV) đổi
được cắt ngắn ban đầu cuối cùng /.

Hình. 6. Furui của thí nghiệm


 Giáo sư Sadaoki Furui là với Viện Công nghệ Tokyo. Ông là một viên
IEEE, sắc Giảng viên của Hiệp hội Chế biến IEEE tín hiệu, và một trong
những nhà nghiên cứu nổi tiếng nhất trong lĩnh vực xử lý ngôn luận
_ Chuyển đổi quang phổ đo (STM): Để điều tra mối quan hệ giữa việc xác
định các âm tiết cắt ngắn và các tính năng năng động quang phổ, Furui, 1981
quy định các biện pháp chuyển đổi D (t) tại thời gian t,

Co cong thuc

_ Ở đây, p là số của hệ số quang phổ, Ci là các hệ số quang phổ


_ Furui cũng xác nhận rằng ranh giới âm vị có thể được xấp xỉ như là tối đa
của STM.
_ Cuối cùng, Furui thấy rằng một đoạn bài phát biểu của khoảng 10ms, bao
gồm tối đa của STM, được xem là chịu những thông tin quan trọng nhất của
âm tiết. Nguyên âm hạt nhân là không cần thiết cho một trong hai nguyên
âm và nhận thức âm tiết.

Hình. 7. STM và nhận thức âm tiết

IV1> DISCUSSION !!!


1> Discussion on Articulatory Phonology
_ Articulatory Target là tĩnh và thường nằm ở trung tâm của âm vị (hạt nhân
nguyên âm).
_ Articulatory cử chỉ với các hiệu ứng của Coarticulation là năng động.
2> Discussion on Furui’s results
_ Static or Dynamic features ? What is more important ?
_ Thực sự là tính năng như là nguyên âm tĩnh hạt nhân không phải là quan
trọng?
_ Nhà nước của các hệ thống nghệ thuật nhận dạng tiếng nói cho thấy rằng
cả hai quang phổ tĩnh (ex MFCC) và tính năng động quang phổ (ex Delta
MFCC) là quan trọng.
_ Chúng ta có thể tách phần hạt nhân (với các đặc tính tĩnh) và các bộ phận
chuyển tiếp (với đặc điểm năng động thực hiện bằng âm-co)?

3> Discussion on Temporal Decomposition


_ Chúng ta có thể mô hình hợp tác phát âm của TD. Tuy nhiên, làm thế nào
để thiết kế các mô hình đơn giản và dễ dàng để áp dụng?
_ Chúng ta có thể áp dụng mô hình này để phân tích và tổng hợp các bộ
phận chuyển tiếp cho các ngữ cảnh khác nhau? Nếu CÓ, chúng ta có thể suy
nghĩ về việc áp dụng mô hình này để ghép nối TTS, trong đó, các âm thanh
được tổng hợp từ các đơn vị phát biểu trước khi ghi (về cơ bản, đơn vị là các
âm vị)

V> Proposed Coarticulation Modeling

_ Giả sử rằng các mục tiêu articulatory của mỗi âm vị luôn luôn tồn tại trong
một thời hạn nhất định quanh mục tiêu lý tưởng với bài phát biểu rõ ràng và
tốc độ phát âm bình thường
_ Xác định trọng điểm: tối đa của STM (ranh giới của âm vị), tối thiểu của
STM (trung tâm của âm vị hạt nhân), tối đa FSTM - Folding chuyển Đo
(ranh giới của một phần hạt nhân - vùng mục tiêu và một phần chuyển tiếp -
coariculation khu vực).
_ Sử dụng lệnh thứ hai RTD để nội suy các thông số âm thanh
_ Phân hủy và tái tạo lại một phần hợp tác phát âm của từng âm vị với các
ngữ cảnh khác nhau.
VI> Concatenative TTS
_ Có bốn loại chính của công nghệ TTS: ghép nối tổng hợp, tổng hợp
Formant, tổng hợp Articulatory, và tổng hợp dựa trên HMM.

_ tổng hợp ghép nối dựa trên nối (hoặc stringing với nhau) của các phân
đoạn của bài phát biểu ghi nhận
_ Nói chung, tổng hợp ghép nối tạo ra giọng nói tự nhiên nhất-sounding tổng
hợp
_ Có ba phụ chính-loại tổng hợp ghép nối: lựa chọn đơn vị tổng hợp, tổng
hợp âm kép, và tham số phân nối tổng hợp

_ Unit selection synthesis


+ Lựa chọn đơn vị tổng hợp sử dụng cơ sở dữ liệu lớn các bài phát biểu ghi
nhận. Khi chạy, các sự đọc rỏ mục tiêu mong muốn được tạo ra bằng cách
xác định dây chuyền tốt nhất của ứng cử viên đơn vị (các dạng sóng) từ cơ
sở dữ liệu
+ Lựa chọn đơn vị cung cấp naturalness lớn nhất, bởi vì nó chỉ áp dụng một
lượng nhỏ xử lý tín hiệu để các bài phát biểu ghi nhận
+ Tuy nhiên, tối đa naturalness thường yêu cầu đơn vị lựa chọn cơ sở dữ liệu
nói là rất lớn, trong một số hệ thống khác nhau, vào gigabyte dữ liệu ghi lại,
đại diện cho hàng chục giờ ngôn luận. Nó gây ra sự tổng hợp lựa chọn đơn
vị là CAO COST, KHÓ KHĂN CHO PHÂN PHỐI, và KHÓ KHĂN CHO
VOICE SỬA ĐỔI
 "Tiếng nội Phương Nam - VOS", là một lựa chọn đơn vị tổng hợp dạng
song

_ Âm kép dựa trên tổng hợp:

+ Âm kép (hoặc triphones) có ích trong tổng hợp giọng nói, vì kết hợp âm
kép trước ghi lại để tạo ra âm thanh tổng hợp giọng nói tự nhiên hơn nhiều
so với kết hợp chỉ cần điện thoại đơn giản, bởi vì âm kép được thực hiện
bằng coarticulation ít hơn điện thoại. Trong thực tế, âm kép này vẫn thực
hiện bằng coarticulation.

+ Tổng hợp âm kép sử dụng một cơ sở dữ liệu giọng nói nhỏ chứa tất cả các
âm kép xảy ra trong một ngôn ngữ. Số lượng âm kép phụ thuộc vào ngôn
ngữ.

+ Trong tổng hợp âm kép, chỉ có một ví dụ của âm kép được chứa trong cơ
sở dữ liệu ngôn luận. Chất lượng của các bài phát biểu kết quả thường là tồi
tệ hơn so với các hệ thống đơn vị lựa chọn, nhưng tự nhiên hơn-sounding
hơn đầu ra của bộ tổng hợp formant
 Các VNSpeech của MICA là một TTS âm kép với 389 âm kép (~ 2,5
MB)

VII> DISCUSSION !!!

_ Chúng ta phải suy nghĩ về một chi phí thấp, CHẤT LƯỢNG CAO và dễ
TTS SỬA ĐỔI CHO VOICE. Nhưng LÀM THẾ NÀO?
_ Bằng việc áp dụng mô hình coarticulation nền tảng TD, Chúng tôi Tin
Chúng tôi Có thể!!!
_ Kết hợp các kỹ thuật và phương pháp sau đây:
+ Tham số phân nối tổng hợp, nhưng bằng cách sử dụng tổng hợp chất
lượng cao thẳng *. Vì vậy, chúng tôi chỉ lưu trữ các thông số kích thước
thẳng nhỏ so với dữ liệu dạng sóng, và dễ dàng để sửa đổi các thông số
+ Bằng cách nhân tạo tổng hợp các phần chuyển đổi bằng cách sử dụng dựa
trên TD-co-phát âm mẫu, chúng ta có thể tổng hợp âm vị với các ngữ cảnh
khác nhau từ dữ liệu giới hạn (tương phản với TTS lựa chọn đơn vị mà
chúng ta cần âm vị trong tất cả các ngữ cảnh). Vì vậy, chi phí thấp.
 Kawahara, H., "thẳng, thăm dò của các khía cạnh khác của vocoder:
Perceptually đẳng cấu phân hủy của các âm thanh bài phát biểu," Acoustic
Khoa học & Công nghệ, 27 (5): 349-353, 2006.

VIII> RESULTS

_ Vẫn tiến hành thí nghiệm


_ TD có thể mô hình coarticulation trong bài phát biểu bình thường và nói rõ
ràng, nhưng trong một số điện thoại, mục tiêu undershoot vẫn xảy ra và
chúng ta có thể không coarticulation mô hình. Trong những trường hợp này,
chúng ta cần sử dụng một số âm kép thay vì điện thoại.
_ Demen, ATR là Corpus phù hợp với Việt Nam và Nhật Bản NHƯNG nó
có thể cần thiết để tự sửa đổi một số dữ liệu ghi nhãn, sử dụng cả hai âm vị
và âm kép.
_ Rất nhiều công trình, tiến độ làm việc là khá thấp.
_ Bất kỳ sự hợp tác là đánh giá cao!

You might also like