You are on page 1of 44

NLP2023 沖縄 チュートリアル

音声合成は次にどこに向かうのか

高道 慎之介 (東京大学)

AVATAR SYMBIOTIC SOCIETY


自己紹介

名前

高道 慎之介 (たかみち しんのすけ)

現職

東京大学 助教

経歴

熊本高専→長岡技大→奈良先端大.
2016年に博士 (工学).

@forthshinji 専門

音声処理 (主に音声合成)

2
こんなことを目指している工学研究者です
(猿渡・小山研究室 音声情報処理グループ)

来年度は,教員2名・博士学生7名・修士3名(M1除く)・アノテータ1名
時を超えて蘇る50年前の歌声 ~スモールデータを用い
たタスク混合深層学習による歌唱再現~ (2022)
“高道慎之介助教を中心とした研究チームは、(中略)、歌手の松任谷由実氏が50
年前にデビューした当時の歌声を人工再現する技術を開発しました。今回研究グ
ループは(中略)、当時の声色と歌唱表現を忠実に再現することに成功しました。”

https://www.i.u-tokyo.ac.jp/news/files/ist_pressrelease_20221003_takamichi_s.pdf
ハンターハンターのキャラボイスになりきる
ボイスチェンジャー (2019)
“ 参 加 者 はブースにてアニメの 映 像 に 合 わせてセリフを 話 すと、 自 分 の 声 が
『HUNTER×HUNTER』のキャラクターの声に変換されてスピーカーから流れ、なり
きりアフレコ体験ができます。”

https://prtimes.jp/main/html/rd/p/000003399.000002581.html
本講演のテーマ

NLP2023 プログラム委員 品川先生からのメール


“音声合成の基礎、最近の音声合成研究の近年の動向や課題感などをお
聞きできたらと考えております。チュートリアルを通して、「音声言語や音
声合成の人はこういうことを考えてるのか、面白いな」と思ってもらえると
良いなと考えております。”

音声合成の基礎は?最近の研究潮流は?
次にどこに向かおうとしているのか?

6
音声情報処理の基礎知識

7
発声器官のモデル: ソース・フィルタモデル

声道 (フィルタ)
口や喉を動かして
音源信号を音色付け

音声波形

畳込み

音源 (ソース)
肺からの呼気を
声帯の開閉で制御

8
音声のもつ情報と,それを扱う主な音声技術

物理 情報 物理

Linguistic
音声認識 (言語情報) テキスト
音声合成
言語で記述可能な情報

音声感情認識 Para-linguistic 感情音声合成


など (パラ言語情報) など
言語で記述できず,話者が意図的に
付与した情報(感情など)
話者認識 話者制御
Non-linguistic
など 音声合成など
(非言語情報)
言語で記述できず,話者の意図と無関係に
付与される情報(話者性など)
9
音声合成とは

• 狭義には,テキストから音声を合成する技術
• =テキスト音声合成 (←本トークのメイン)

テキスト
テキスト 音声
音声合成

• 広義には,何らかの情報から音声を合成する技術
• {音声, 動画, 話者情報, 概念} to speech

テキスト音声合成 テキスト
音声・歌声変換 音声
広義の音声合成 音声
歌声合成 楽譜
対話音声合成 対話文脈

10
音声合成の歴史(1990s~)

~1980s: フォルマント合成(規則合成)
専門家の定めた規則に基づく波形合成
https://ascii.jp/elem/000/000/550/
550607/img.html

1990~:素片選択型合成
音声素片をつなぎ合わせる,最初のデータ駆動型音声合成

1995~:HMMパラメトリック音声合成
機械学習に基づく最初の音声合成. https://av.watch.impress.co.jp/
docs/20070831/crypton.jpg

2013~:DNNパラメトリック音声合成
深層学習モデル(DNN)に基づく最初の音声合成.
https://aivoice.jp/product/kotonoha/

2017~:End-to-end音声合成
合成過程全てをDNNで記述する音声合成.

11
典型的な音声合成の処理

テキスト

• 音声に関連する言語特徴量の抽出
言語処理
(テキスト解析) • テキスト正規化,単語分割,POSタギング
• Grapheme-to-phoneme, 韻律推定

• 言語特徴量を音声特徴量に変換
音声言語処理
(音響モデル) • 特徴量系列-to-特徴量系列変換
• 生波形のつなぎ合わせ, 機械学習モデル, etc.

• 音声特徴量から音声波形を生成
音声処理
(ボコーダ) • 音声分析(波形→特徴量)の逆変換
• 音声生成過程をモデル化する信号処理

音声 12
最近の発展はなぜ起きたのか?

13
近年の発展は本当にスゴイ

NEUTRINO (2020) SONANTIC (2022)

(← 2015年 (当時NAIST D3) に参加した国際


コンペで1位になって「世界一だぜ💪」とイ
キっていたころが懐かしい)
14

https://drive.google.com/file/d/0BwCq1DWnNN4NVDAyT0F1dTBSZEk/view?resourcekey=0-fFFJphGYug170bYJJPm-1A
その発展はなぜ起きたのか?
①(near) end-to-end の生成モデル
自己回帰型 (Wave-Tacotron) 非自己回帰型 (JETS)
[Weiss21] [Lim22]
明示的な対応と音声特徴を持たない 言語特徴と音声特徴の単調対応を仮定
テキスト テキスト
Conv. + pool Transformer
monotonic aligner
Cross attention
Variance adaptor
LSTM Transformer
音声特徴
Flow
HiFi-GAN
音声 音声
その他,Transformer自体の改良も多々 (局所的なself-attentionを仮定できる
ことを利用して,Conformer, (E-)branchformer などが提案) 15
[Weiss21] “Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis” ICASSP 2021.
[Lim22] “JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech” Interspeech 2022.
その発展はなぜ起きたのか?
②ニューラル波形生成モデル
音声特徴 ボコーダ 音声波形
80 フレーム/秒 48k サンプル/秒

• 波形生成 (音声特徴 -> 音声波形) がボトルネックだった


• 波形⇔特徴の信号処理だけで品質が劣化していた [Matsubara21]
Signal Lightweight AR-DNN non-AR GAN Flow AR-
Processing (for portable devices) CNN

Training data size [hour]

• 波形を生成するための深層生成モデル
• 機械学習由来: WaveNet, GAN, Flow, diffusion, etc.
• 信号処理由来: LPCNet, differentiable vocoder, etc. 16

[Matsubara21] “Investigation of training data size for real-time neural vocoders on CPUs,” AST, 2021.
その発展はなぜ起きたのか?
③パブリック音声資源の整備
• 音声合成のコーパス音声は,整備環境で収録されることが多い
• 事前スクリプト,プロ話者,静音環境など
• 2017年ごろから整備が進む (end-to-endが出てきた頃)

~2017 2020 2023

英語 (LJspeech, LibriTTS, etc.)


南アジアの言語 (Hindi, Bengali, etc.)
フランス語 (SIWIS, etc.)
日本語 (JSUT, JVS, etc.) アフリカの言語 (BibleTTS, etc.)

* 一例 韓国語 (KSS, etc.) 方言 (英語,中国語,日本語, etc.)


中国語 (DiDiSpeech, etc.)
ロシア語 (Ruslan, etc.)

OpenSLR や Huggingface で調べてみて下さい


(日本語なら https://qiita.com/nakakq/items/74fea8b55d08032d25f9 がオススメ)
17
その発展はなぜ起きたのか?
④自己教師あり学習モデル
• 音声分野でも自己教師あり学習
モデルが隆盛
• 例えば左図のWavLM [Chen21]
• 意味の有る音声特徴を音声だけ
から事前学習
• 連続値 or 離散値表現

• まさにいま調査が進む分野
• 各層が表すもの (phonology ~
morphology)
• downstream性能 (言語,パラ言
語,非言語)
• 言語・音環境依存性
18

[Chen21] “WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing,” 2021.
最近の音声合成分野では,
どんなことが解かれようとしているのか?

19
rich-resource 言語の短文読み上げの研究は収束し,開
発フェーズへ
• いくつかのrich-resource言語では,合成音声と自然音声の音質が
ほぼ同程度に
• 英語,スペイン語,韓国語など character (byte)-to-spech

• 解くべき基本問題は未だ有る (←が,本講演では省略)
• 高速な学習,fine-tuning,推論
• 軽量なモデル,少量の計算資源
• 言語依存の処理
• 例えば,中国語・日本語などのpolyphone disambiguation

• 本講演では,新たにどんな問題をとこうとしているのかに注目

20
長文の音声でも自然に読めるようにしよう

Short-form synthesis Long-form synthesis


“子供より親が大事、と思いた
“子供より親が大事、 い。子供のために、などと古風
と思いたい。” 合成 な道学者みたいな事を殊勝ら 合成
しく...呈しているのである。”
文は 太宰治「桜桃」より引用.

• 短文音声と長文音声は,知覚が全く異なる
• 短文音声の評価値は,長文音声の評価値と相関しない [Clark19]
• (短文音声で学習された) TTSの長文音声は,声色や話速によって著し
く評価値を下げることが有る [Cambre20]

• 何が考慮されていないのか?
• 話者・スタイル: 例えば長時間聞いても疲れない声色・話し方
• 文ドメイン: 文と音声の極性・スタイルの一致
• 長期韻律: “プロ話者の朗読は長期的な韻律変化をもつ” [郡2020]
[Clark19] “Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs” SSW 2019. 21
[Cambre20] “Choice of Voices: A Large-Scale Evaluation of Text-to-Speech Voice Quality for Long-Form Content” CHI 2020.
[郡2020] “. 日本語のイントネーション–しくみと音読・朗読への応用” 大修館書店, 2020
多言語化: 処理できる音声言語を100から1000へ

• いま音声合成(認識)できる言語は極めて少ない
• 商用の機械翻訳だと100言語くらい?
• 商用の音声認識で70~80言語くらい? 音声合成は更に少ない.
• 言語数を増やすには? データ収集論とモデル学習論
• (参考) 機械翻訳では 1000 言語を目指す [Bapna22]
• 音声認識では 100~300 言語を目指す [Zhang23]

22
Bapna et al., “Building Machine Translation Systems for the Next Thousand Languages,” arXiv 2022.
Zhang et al., “Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages,” arXiv, 2023.
非言語音声:文字で記述できない非言語音声を,言語音
声と同じように扱えるようにしよう
• 全ての音声が言語で記述できるわけではない
• Verbal voice … 言語音.これまでの音声認識合成の対象
• Non-verbal voice (affect burst) … 笑い,泣き,叫びなどの感情表出

例えば,この音声をどのように
{認識,表現,合成}する?

• 様々な技術
• Non-verbal voice の感情認識 [Baird22]
• 文字以外のシンボルで音声を表現 [Lakhotia21]
• 文字シンボル + 学習シンボルからの音声合成

[Baird22] “The ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal
23
Bursts,” ICML 2022.
[Lakhotia21] “Generative Spoken Language Modeling from Raw Audio” TACL,2021.
画像文字:離散シンボルとしての文字以上の情報を持っ
たメディアからの音声合成

DocLayoutTTS:文字画像のレイアウトも考 vTTS:表音文字の構成性を利用して音
慮して,適切な内容と順番で読み上げる 声合成 [Nakano23]
[Mathur22]

visual onoma-to-wave:オノマトペ文字
の画像効果を音に反映 [Ohnaka23]

他にも,文字を画像と見做した
自己教師あり学習PIXEL [Rust22],機械翻訳 [Salesky21]
[Mathur22] “DocLayoutTTS: Dataset and Baselines for Layout-informed Document-level Neural Speech Synthesis,” Interspeech, 2022.
[Nakano23] “vTTS: visual-text to speech” SLT 2022
[Ohnaka23] “Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images”, ICASSP 2023. 24
[Rust22] “Language Modelling with Pixels” ICLR 2023.
[Salesky21] “Robust Open-Vocabulary Translation from Visual Text Representations” EMNLP 2021.
品質の自動評価:人間の評価値を自動予測できる?

• 合成音声品質を図る主観的指標がいくつかある.代表的には
• Naturalness (自然性) … その音声がどの程度自然か
• Intelligibility (明瞭性) … その音声の言語内容がどの程度明瞭か
• Speaker similarity (話者類似度) … 所望の話者をどれくらい再現でき
ているか
• → 特に自然性は自動的に図る指標がない (既存の客観評価値と相関
しない)

• VoiceMOS Challenge 2022


• 合成音声と主観評価値からなる共通データセットから,音声→評価値の
機械学習モデルを学習・評価
• 最先端モデルの音声に対する評価は微妙だが,評価値の相対的な大
小は比較的正しい [Huang22]
• 学習データと評価データの言語が違っても良好に動作 [Seki23]
25
[Huang22] “The VoiceMOS Challenge 2022,” Interspeech 2022.
[Seki23] “Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection” ICASSP 2023.
音声を彩る背景音の合成
(マルチトラックの音合成に向けた技術)
• オーディオブックに合うBGMをテキストに基づいて選択 [Chen22]

• ボーカルに合うインストを合成 [Donahue23]

これらの研究は(まだ)人間の音声を対象にしているが,
いずれマルチトラック合成(音声+音楽,音声+音声,音声+音イベント)に?
26
[Chen22] “An Automatic Soundtracking System for Text-to-Speech Audiobooks” Interspeech22.
[Donahue23] “SingSong: Generating musical accompaniments from singing” arXiv 2023.
今後はどう進んでいく? (私見)

27
音声研究者から自然言語研究者にアイを込めて

• (私見ですが) 日本における音声分野と自然言語分野の乖離
• 深層学習によって分野間のハードルは下がったにも関わらず

• どんなところに,分野間の共通点やコラボの機会が有るだろうか?

• 音声工学研究者が考えてみました

28
時間方向:過去の音声言語を生成モデルで復元できる
か?

令和・平成 2000年代 ユーザ生成コンテンツ


昭和 1960年代 ユーザ録音
近代
大正 1930年代 トーキー映画
明治 1900年 日本語最古の録音
近世 江戸
中世 鎌倉・室町
中古 平安 音声データなし

上代 〜奈良
日本語史的 政治史的
区分 区分

人類史で使われてきたあらゆる音声の生成モデルを作れるだろうか?
29
空間・属性方向:地域方言,社会方言,家庭方言を
復元・保存・生成できるか?
• 地域方言
• “(日本の地域方言は)おそらく関西弁ぐらいしか残らずにあとは標準語
に置き換わってしまう状況” (国語研 木部先生)
• https://www.youtube.com/watch?v=OQyGPrg24Tc
• 復元・保存・継承に加えて生成まで
• 生成モデルまで作って未来に繋げられれば,その音声言語文化が人間か
ら生成されずとも,未来の人が新しい文化を創発するのは? (私見)
• 東北方言昔話の復元・保存・認識・合成プロジェクト [国語研PJ]

• 社会方言・家庭内方言も
• 言語レベル・音声レベルの両方で,自身の社会的・家庭内立場を踏まえ
た音声AIデザイン?

30
音声言語の「鏡」は作れるか?

• 「外部に放射された自分」が変わると行動が変容する
• プロテウス効果:自分の見た目が変わると,態度や行動が変わる
• 最近では音声でも確認されつつ有る
見た目がアインシュタインになると認 自分の声が変わると他者への暗黙の
知テスト点が上がる[Banakou18] 偏見が減る[Arakawa21]

• 自己帰属する音声言語が変わると行動が変わる?
• 現在(or 過去)の自分の音声言語が生成モデルで変わると,人間の行
動はどう変わる?どこまで変わっても自己帰属する?
31
[Banakou18] “Virtually Being Einstein Results in an Improvement in Cognitive Task Performance and a Decrease in Age Bias.” Front. Psychol 2018.
[Arakawa21] “Digital Speech Makeup: Voice Conversion Based Altered Auditory Feedback for Transforming Self-Representation” ICMI 2023.
“ゴースト”を持った音声言語AIを作れるか?

• 音声言語エージェントが人間に准ずる存在になるためには?
• 物理的or情報的に身体性を持った,人間に並列する存在

• 自発性と自律性
• 自発性:自己の内部の原因によって行われる性質
• (行動の)自律性:環境と相互作用して,介入無く動作する性質
• → 共通するのはゴースト(自己のアイデンティティを司る心的機能)?

• 言語レベル・音声レベルのゴーストデザイン?

32
持続可能な日本語音声言語資源の構築へ

• (音声においても) 音声言語資源はずっと不足している
• やはり多いのは英語,中国語
• (技術が普遍化した以上,日本語使用者が日本語資源の整備を進める
べきだと個人的に思います)

• 何を議論し実行すべき?
• 適法的に構築できる方法?
• ウェブデータなら規約,著作権法,個人情報保護法(2022.04改正)
• 意味の有るデータの採掘法
• 言語学から音声学(音響学)まで通貫するタスクデザイン?
• 持続的に構築・公開できる方法? (資金的な意味でも)
• 研究から商用まで通貫するデザイン?
• {言語, 音声, 工学, 人文学}だけを超えた議論が必要

33
自然言語で制御される音声処理が間もなくやってくる.
どうする?
現在 やがてくる未来

xxx 合成 変換 xxx USP USP xxx

xxx

認識 xxx 強調 USP

• 汎用音声処理器 (universal speech processor) はもうすぐ?


• 現在は,汎用ではないもののテキスト駆動形の影を感じる段階
• {環境音, 音楽, 音声}合成,音声強調, etc.
• この数年でやがて汎用へ?

• これをどう評価したら良い? 言語と音声の両面から.
• + どう付き合ったら良い? 34
音声合成に向かう「知の高速道路」

35
「音声合成(音声処理)をやりたいけど,とりあえず何から
始めれば良いの?」
• そんな方のために「知の高速道路」を敷いておきます
• 本チュートリアルに来てくださった方へのお礼として.

• こんな質問に答えていきます.
• 「まずは理論を勉強したい!」
• 「(中身をいじることはないですが)ツールとして使いたい!」
• 「自分でモデルを作ってみたい!」

36
「まずは理論を勉強したい!」:Pythonで学ぶ音声合成

• 音声合成の基礎
• 自然言語処理
• 音声言語処理
• 音声処理

• 深層学習に基づく日本語音声合成
• パラメトリック音声合成
• End-to-end音声合成

• 新たにコーパスを作るには
• 本講演で少し後述します
37
「ツールとして使いたい!」

• ESPnet (end-to-end speech processing toolkit)


• https://github.com/espnet/espnet
• 多種多様なタスク・レシピ・事前学習モデルをサポート
• 日本語のモデルもたくさんあります
• 本スライドでこれまでに出した手法名や,以降で説明する設定を参考にし
て,モデルを選択すると良いかも?

• ttslearn (Pythonで学ぶ音声合成)
• https://github.com/r9y9/ttslearn
• 非常にシンプルなコード群.日本語音声合成の勉強に良し.

• 他にも (github で探せば出てきます)


• coqui-ai, speech-brain, NeMo, etc.
38
「自分でモデルを作ってみたい!」

• 1~2時間の音声収録と数時間のGPU時間があれば,自前で音声合
成を作れます.
• 弊研究グループでは,配属されてまず自分の音声合成をつくります.
• 初心者でも割とすぐ作れるので
• (自前で無くて良いなら,製品や既存ボイスを使って下さい.最近は良い
ものがたくさんあります)

• コーパス構築に関するノウハウを共有します
• 大まかなところだけ.
• 細かいところは「Pythonで学ぶ音声合成」などを参照下さい.
• 簡易な音声収録方法を紹介するブログ記事も多々あります

39
音声収録のコツ (1)

• 台本を用意して下さい
• ITA,JVSコーパスなどがメジャー
• いわゆる音素バランス文
弊研究グループの無響室
• 1~2時間あれば読み終わります
(音波の反射が小さい壁・机.)
• 合成したい文ドメインがあるならそれも

• 環境を用意して下さい
• 雑音や残響は極力さける
• 空調,PC音,部屋の響き,人の声
• 普通の会議室でも,硬いものを柔らかいも
ので覆うだけでだいぶ違います
• マイクは1万円くらいのもので十分
• アプリは好きなもの (ボイスメモでもOK)
• 録音設定は注意
• “ロスレス” “wav” “48kHz” “24bit” あたりが
キーワード 40
音声収録のコツ (2) & 学習してみよう

• 台本を読んで下さい
• 丁寧に読んで下さい
• 読み間違いはやり直し
• 言語特徴量から音声を予測するDNNの気持ちになって
• 喋りスタイルは一定で (理由は同上)
• 休憩を必ずとる (1時間に1回,10分など)
• テキスト以外の文脈があるなら,それも保存

• 学習してみよう
• “ESPnet 音声合成“ などで調べると,必要な情報が出てきます.
• Google Colab でやることも十分可能.
• 典型的なのは,JSUTコーパスで学習したTacotron2, FastSpeech2,
VITSを fine-tuning.

41
学習してみよう

• それ以外の場合はどうしたら良いの?
• 「収録済みの音声から音声合成を作りたい」
• 「テキスト(表層)以外の情報も音声合成に使いたい」
• 「どうしても雑音や残響が多い音声しか無いです」
• 「このやり方で正しいかどうか分からないです」
• →音声合成研究者(例えば私)にお問い合わせ下さい!

42
総括

43
まとめ

• 音声情報処理の基礎知識

• 最近の発展はなぜ起きたのか?

• 今後はどう進んでいく?

• 音声合成に向かう「知の高速道路」

44

You might also like