Professional Documents
Culture Documents
音声合成は次にどこに向かうのか
高道 慎之介 (東京大学)
名前
現職
東京大学 助教
経歴
熊本高専→長岡技大→奈良先端大.
2016年に博士 (工学).
@forthshinji 専門
音声処理 (主に音声合成)
2
こんなことを目指している工学研究者です
(猿渡・小山研究室 音声情報処理グループ)
来年度は,教員2名・博士学生7名・修士3名(M1除く)・アノテータ1名
時を超えて蘇る50年前の歌声 ~スモールデータを用い
たタスク混合深層学習による歌唱再現~ (2022)
“高道慎之介助教を中心とした研究チームは、(中略)、歌手の松任谷由実氏が50
年前にデビューした当時の歌声を人工再現する技術を開発しました。今回研究グ
ループは(中略)、当時の声色と歌唱表現を忠実に再現することに成功しました。”
https://www.i.u-tokyo.ac.jp/news/files/ist_pressrelease_20221003_takamichi_s.pdf
ハンターハンターのキャラボイスになりきる
ボイスチェンジャー (2019)
“ 参 加 者 はブースにてアニメの 映 像 に 合 わせてセリフを 話 すと、 自 分 の 声 が
『HUNTER×HUNTER』のキャラクターの声に変換されてスピーカーから流れ、なり
きりアフレコ体験ができます。”
https://prtimes.jp/main/html/rd/p/000003399.000002581.html
本講演のテーマ
音声合成の基礎は?最近の研究潮流は?
次にどこに向かおうとしているのか?
6
音声情報処理の基礎知識
7
発声器官のモデル: ソース・フィルタモデル
声道 (フィルタ)
口や喉を動かして
音源信号を音色付け
音声波形
畳込み
音源 (ソース)
肺からの呼気を
声帯の開閉で制御
8
音声のもつ情報と,それを扱う主な音声技術
物理 情報 物理
Linguistic
音声認識 (言語情報) テキスト
音声合成
言語で記述可能な情報
• 狭義には,テキストから音声を合成する技術
• =テキスト音声合成 (←本トークのメイン)
テキスト
テキスト 音声
音声合成
• 広義には,何らかの情報から音声を合成する技術
• {音声, 動画, 話者情報, 概念} to speech
テキスト音声合成 テキスト
音声・歌声変換 音声
広義の音声合成 音声
歌声合成 楽譜
対話音声合成 対話文脈
10
音声合成の歴史(1990s~)
~1980s: フォルマント合成(規則合成)
専門家の定めた規則に基づく波形合成
https://ascii.jp/elem/000/000/550/
550607/img.html
1990~:素片選択型合成
音声素片をつなぎ合わせる,最初のデータ駆動型音声合成
1995~:HMMパラメトリック音声合成
機械学習に基づく最初の音声合成. https://av.watch.impress.co.jp/
docs/20070831/crypton.jpg
2013~:DNNパラメトリック音声合成
深層学習モデル(DNN)に基づく最初の音声合成.
https://aivoice.jp/product/kotonoha/
2017~:End-to-end音声合成
合成過程全てをDNNで記述する音声合成.
11
典型的な音声合成の処理
テキスト
• 音声に関連する言語特徴量の抽出
言語処理
(テキスト解析) • テキスト正規化,単語分割,POSタギング
• Grapheme-to-phoneme, 韻律推定
• 言語特徴量を音声特徴量に変換
音声言語処理
(音響モデル) • 特徴量系列-to-特徴量系列変換
• 生波形のつなぎ合わせ, 機械学習モデル, etc.
• 音声特徴量から音声波形を生成
音声処理
(ボコーダ) • 音声分析(波形→特徴量)の逆変換
• 音声生成過程をモデル化する信号処理
音声 12
最近の発展はなぜ起きたのか?
13
近年の発展は本当にスゴイ
https://drive.google.com/file/d/0BwCq1DWnNN4NVDAyT0F1dTBSZEk/view?resourcekey=0-fFFJphGYug170bYJJPm-1A
その発展はなぜ起きたのか?
①(near) end-to-end の生成モデル
自己回帰型 (Wave-Tacotron) 非自己回帰型 (JETS)
[Weiss21] [Lim22]
明示的な対応と音声特徴を持たない 言語特徴と音声特徴の単調対応を仮定
テキスト テキスト
Conv. + pool Transformer
monotonic aligner
Cross attention
Variance adaptor
LSTM Transformer
音声特徴
Flow
HiFi-GAN
音声 音声
その他,Transformer自体の改良も多々 (局所的なself-attentionを仮定できる
ことを利用して,Conformer, (E-)branchformer などが提案) 15
[Weiss21] “Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis” ICASSP 2021.
[Lim22] “JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech” Interspeech 2022.
その発展はなぜ起きたのか?
②ニューラル波形生成モデル
音声特徴 ボコーダ 音声波形
80 フレーム/秒 48k サンプル/秒
• 波形を生成するための深層生成モデル
• 機械学習由来: WaveNet, GAN, Flow, diffusion, etc.
• 信号処理由来: LPCNet, differentiable vocoder, etc. 16
[Matsubara21] “Investigation of training data size for real-time neural vocoders on CPUs,” AST, 2021.
その発展はなぜ起きたのか?
③パブリック音声資源の整備
• 音声合成のコーパス音声は,整備環境で収録されることが多い
• 事前スクリプト,プロ話者,静音環境など
• 2017年ごろから整備が進む (end-to-endが出てきた頃)
• まさにいま調査が進む分野
• 各層が表すもの (phonology ~
morphology)
• downstream性能 (言語,パラ言
語,非言語)
• 言語・音環境依存性
18
[Chen21] “WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing,” 2021.
最近の音声合成分野では,
どんなことが解かれようとしているのか?
19
rich-resource 言語の短文読み上げの研究は収束し,開
発フェーズへ
• いくつかのrich-resource言語では,合成音声と自然音声の音質が
ほぼ同程度に
• 英語,スペイン語,韓国語など character (byte)-to-spech
• 解くべき基本問題は未だ有る (←が,本講演では省略)
• 高速な学習,fine-tuning,推論
• 軽量なモデル,少量の計算資源
• 言語依存の処理
• 例えば,中国語・日本語などのpolyphone disambiguation
• 本講演では,新たにどんな問題をとこうとしているのかに注目
20
長文の音声でも自然に読めるようにしよう
• 短文音声と長文音声は,知覚が全く異なる
• 短文音声の評価値は,長文音声の評価値と相関しない [Clark19]
• (短文音声で学習された) TTSの長文音声は,声色や話速によって著し
く評価値を下げることが有る [Cambre20]
• 何が考慮されていないのか?
• 話者・スタイル: 例えば長時間聞いても疲れない声色・話し方
• 文ドメイン: 文と音声の極性・スタイルの一致
• 長期韻律: “プロ話者の朗読は長期的な韻律変化をもつ” [郡2020]
[Clark19] “Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs” SSW 2019. 21
[Cambre20] “Choice of Voices: A Large-Scale Evaluation of Text-to-Speech Voice Quality for Long-Form Content” CHI 2020.
[郡2020] “. 日本語のイントネーション–しくみと音読・朗読への応用” 大修館書店, 2020
多言語化: 処理できる音声言語を100から1000へ
• いま音声合成(認識)できる言語は極めて少ない
• 商用の機械翻訳だと100言語くらい?
• 商用の音声認識で70~80言語くらい? 音声合成は更に少ない.
• 言語数を増やすには? データ収集論とモデル学習論
• (参考) 機械翻訳では 1000 言語を目指す [Bapna22]
• 音声認識では 100~300 言語を目指す [Zhang23]
22
Bapna et al., “Building Machine Translation Systems for the Next Thousand Languages,” arXiv 2022.
Zhang et al., “Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages,” arXiv, 2023.
非言語音声:文字で記述できない非言語音声を,言語音
声と同じように扱えるようにしよう
• 全ての音声が言語で記述できるわけではない
• Verbal voice … 言語音.これまでの音声認識合成の対象
• Non-verbal voice (affect burst) … 笑い,泣き,叫びなどの感情表出
例えば,この音声をどのように
{認識,表現,合成}する?
• 様々な技術
• Non-verbal voice の感情認識 [Baird22]
• 文字以外のシンボルで音声を表現 [Lakhotia21]
• 文字シンボル + 学習シンボルからの音声合成
[Baird22] “The ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal
23
Bursts,” ICML 2022.
[Lakhotia21] “Generative Spoken Language Modeling from Raw Audio” TACL,2021.
画像文字:離散シンボルとしての文字以上の情報を持っ
たメディアからの音声合成
DocLayoutTTS:文字画像のレイアウトも考 vTTS:表音文字の構成性を利用して音
慮して,適切な内容と順番で読み上げる 声合成 [Nakano23]
[Mathur22]
visual onoma-to-wave:オノマトペ文字
の画像効果を音に反映 [Ohnaka23]
他にも,文字を画像と見做した
自己教師あり学習PIXEL [Rust22],機械翻訳 [Salesky21]
[Mathur22] “DocLayoutTTS: Dataset and Baselines for Layout-informed Document-level Neural Speech Synthesis,” Interspeech, 2022.
[Nakano23] “vTTS: visual-text to speech” SLT 2022
[Ohnaka23] “Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images”, ICASSP 2023. 24
[Rust22] “Language Modelling with Pixels” ICLR 2023.
[Salesky21] “Robust Open-Vocabulary Translation from Visual Text Representations” EMNLP 2021.
品質の自動評価:人間の評価値を自動予測できる?
• 合成音声品質を図る主観的指標がいくつかある.代表的には
• Naturalness (自然性) … その音声がどの程度自然か
• Intelligibility (明瞭性) … その音声の言語内容がどの程度明瞭か
• Speaker similarity (話者類似度) … 所望の話者をどれくらい再現でき
ているか
• → 特に自然性は自動的に図る指標がない (既存の客観評価値と相関
しない)
• ボーカルに合うインストを合成 [Donahue23]
これらの研究は(まだ)人間の音声を対象にしているが,
いずれマルチトラック合成(音声+音楽,音声+音声,音声+音イベント)に?
26
[Chen22] “An Automatic Soundtracking System for Text-to-Speech Audiobooks” Interspeech22.
[Donahue23] “SingSong: Generating musical accompaniments from singing” arXiv 2023.
今後はどう進んでいく? (私見)
27
音声研究者から自然言語研究者にアイを込めて
• (私見ですが) 日本における音声分野と自然言語分野の乖離
• 深層学習によって分野間のハードルは下がったにも関わらず
• どんなところに,分野間の共通点やコラボの機会が有るだろうか?
• 音声工学研究者が考えてみました
28
時間方向:過去の音声言語を生成モデルで復元できる
か?
上代 〜奈良
日本語史的 政治史的
区分 区分
人類史で使われてきたあらゆる音声の生成モデルを作れるだろうか?
29
空間・属性方向:地域方言,社会方言,家庭方言を
復元・保存・生成できるか?
• 地域方言
• “(日本の地域方言は)おそらく関西弁ぐらいしか残らずにあとは標準語
に置き換わってしまう状況” (国語研 木部先生)
• https://www.youtube.com/watch?v=OQyGPrg24Tc
• 復元・保存・継承に加えて生成まで
• 生成モデルまで作って未来に繋げられれば,その音声言語文化が人間か
ら生成されずとも,未来の人が新しい文化を創発するのは? (私見)
• 東北方言昔話の復元・保存・認識・合成プロジェクト [国語研PJ]
• 社会方言・家庭内方言も
• 言語レベル・音声レベルの両方で,自身の社会的・家庭内立場を踏まえ
た音声AIデザイン?
30
音声言語の「鏡」は作れるか?
• 「外部に放射された自分」が変わると行動が変容する
• プロテウス効果:自分の見た目が変わると,態度や行動が変わる
• 最近では音声でも確認されつつ有る
見た目がアインシュタインになると認 自分の声が変わると他者への暗黙の
知テスト点が上がる[Banakou18] 偏見が減る[Arakawa21]
• 自己帰属する音声言語が変わると行動が変わる?
• 現在(or 過去)の自分の音声言語が生成モデルで変わると,人間の行
動はどう変わる?どこまで変わっても自己帰属する?
31
[Banakou18] “Virtually Being Einstein Results in an Improvement in Cognitive Task Performance and a Decrease in Age Bias.” Front. Psychol 2018.
[Arakawa21] “Digital Speech Makeup: Voice Conversion Based Altered Auditory Feedback for Transforming Self-Representation” ICMI 2023.
“ゴースト”を持った音声言語AIを作れるか?
• 音声言語エージェントが人間に准ずる存在になるためには?
• 物理的or情報的に身体性を持った,人間に並列する存在
• 自発性と自律性
• 自発性:自己の内部の原因によって行われる性質
• (行動の)自律性:環境と相互作用して,介入無く動作する性質
• → 共通するのはゴースト(自己のアイデンティティを司る心的機能)?
• 言語レベル・音声レベルのゴーストデザイン?
32
持続可能な日本語音声言語資源の構築へ
• (音声においても) 音声言語資源はずっと不足している
• やはり多いのは英語,中国語
• (技術が普遍化した以上,日本語使用者が日本語資源の整備を進める
べきだと個人的に思います)
• 何を議論し実行すべき?
• 適法的に構築できる方法?
• ウェブデータなら規約,著作権法,個人情報保護法(2022.04改正)
• 意味の有るデータの採掘法
• 言語学から音声学(音響学)まで通貫するタスクデザイン?
• 持続的に構築・公開できる方法? (資金的な意味でも)
• 研究から商用まで通貫するデザイン?
• {言語, 音声, 工学, 人文学}だけを超えた議論が必要
33
自然言語で制御される音声処理が間もなくやってくる.
どうする?
現在 やがてくる未来
xxx
認識 xxx 強調 USP
• これをどう評価したら良い? 言語と音声の両面から.
• + どう付き合ったら良い? 34
音声合成に向かう「知の高速道路」
35
「音声合成(音声処理)をやりたいけど,とりあえず何から
始めれば良いの?」
• そんな方のために「知の高速道路」を敷いておきます
• 本チュートリアルに来てくださった方へのお礼として.
• こんな質問に答えていきます.
• 「まずは理論を勉強したい!」
• 「(中身をいじることはないですが)ツールとして使いたい!」
• 「自分でモデルを作ってみたい!」
36
「まずは理論を勉強したい!」:Pythonで学ぶ音声合成
• 音声合成の基礎
• 自然言語処理
• 音声言語処理
• 音声処理
• 深層学習に基づく日本語音声合成
• パラメトリック音声合成
• End-to-end音声合成
• 新たにコーパスを作るには
• 本講演で少し後述します
37
「ツールとして使いたい!」
• ttslearn (Pythonで学ぶ音声合成)
• https://github.com/r9y9/ttslearn
• 非常にシンプルなコード群.日本語音声合成の勉強に良し.
• 1~2時間の音声収録と数時間のGPU時間があれば,自前で音声合
成を作れます.
• 弊研究グループでは,配属されてまず自分の音声合成をつくります.
• 初心者でも割とすぐ作れるので
• (自前で無くて良いなら,製品や既存ボイスを使って下さい.最近は良い
ものがたくさんあります)
• コーパス構築に関するノウハウを共有します
• 大まかなところだけ.
• 細かいところは「Pythonで学ぶ音声合成」などを参照下さい.
• 簡易な音声収録方法を紹介するブログ記事も多々あります
39
音声収録のコツ (1)
• 台本を用意して下さい
• ITA,JVSコーパスなどがメジャー
• いわゆる音素バランス文
弊研究グループの無響室
• 1~2時間あれば読み終わります
(音波の反射が小さい壁・机.)
• 合成したい文ドメインがあるならそれも
•
• 環境を用意して下さい
• 雑音や残響は極力さける
• 空調,PC音,部屋の響き,人の声
• 普通の会議室でも,硬いものを柔らかいも
ので覆うだけでだいぶ違います
• マイクは1万円くらいのもので十分
• アプリは好きなもの (ボイスメモでもOK)
• 録音設定は注意
• “ロスレス” “wav” “48kHz” “24bit” あたりが
キーワード 40
音声収録のコツ (2) & 学習してみよう
• 台本を読んで下さい
• 丁寧に読んで下さい
• 読み間違いはやり直し
• 言語特徴量から音声を予測するDNNの気持ちになって
• 喋りスタイルは一定で (理由は同上)
• 休憩を必ずとる (1時間に1回,10分など)
• テキスト以外の文脈があるなら,それも保存
• 学習してみよう
• “ESPnet 音声合成“ などで調べると,必要な情報が出てきます.
• Google Colab でやることも十分可能.
• 典型的なのは,JSUTコーパスで学習したTacotron2, FastSpeech2,
VITSを fine-tuning.
41
学習してみよう
• それ以外の場合はどうしたら良いの?
• 「収録済みの音声から音声合成を作りたい」
• 「テキスト(表層)以外の情報も音声合成に使いたい」
• 「どうしても雑音や残響が多い音声しか無いです」
• 「このやり方で正しいかどうか分からないです」
• →音声合成研究者(例えば私)にお問い合わせ下さい!
42
総括
43
まとめ
• 音声情報処理の基礎知識
• 最近の発展はなぜ起きたのか?
• 今後はどう進んでいく?
• 音声合成に向かう「知の高速道路」
44