ボイスチェンジャー

ボイスチェンジャー (英: Voice changer) は音声を人工的に加工・変換するシステムである^[1]。変声機や音声変換機とも呼ばれる。

概説

定義

人工的に音声を生成する音声合成のうち、音声を入力とし変換された音声を合成する（=音声を加工する）タスクを音声変換という^[2]。ボイスチェンジャーは音声変換タスクを実行するシステム、すなわち入力された音声の響きを変化させて出力する機械やソフトウェアを指す^[1]。「ボイス/声」が指すように、ボイスチェンジャーは音全般ではなく声を入力として言語内容を変えずに音の響き（例: 声質）のみを加工する^[2]。

用途

ボイスチェンジャーは様々な用途で利用される。

匿名化: ニュースやワイドショーのインタビューにおける取材源の秘匿、一般人のプライバシー保護
エンタメ: 性別を変換した声による声劇（例: 男声→女声）
医療: 嗄声の定型発声化によるQOLの改善

形態

ボイスチェンジャーは様々なシステムで実現される。

ハードウェアボイスチェンジャー
- 音響伝播: 空気を伝播する音波の共鳴による加工（例: 手を筒にして口の前に置くと声の響きが変わる）
- アナログ音響信号処理: 電子回路によるアナログ音声信号の変換（参考: エフェクター）
ソフトウェアボイスチェンジャー: デジタル信号処理による音声変換^[3]

利用例

フィクション

フィクションではしばしばボイスチェンジャーが登場する。有名な例として、漫画『名探偵コナン』に登場する「蝶ネクタイ型変声機」がある。

音声変換

音声変換（英: voice conversion）は入力音声がもつ特徴の一部を変換するタスクである^[4]。

音声合成の一種であり、言語内容を維持したまま話者を変える話者変換^[5]、声のトーンのみを変える感情変換など、様々なサブタスクに分類できる。話者性や音色を維持し言語内容のみを外国語に変えるタスクは音声翻訳タスクとも音声変換タスクとも捉えられる。ボイスチェンジャーは音声変換タスクを実現するシステムと解される。

手法

様々な手法が存在し、実利用されている。以下はその一例である：

信号処理
- PSOLA（利用例: 恋声 TD-PSOLA モード^[6]）
- フェーズボコーダ（利用例: 恋声 Phase Vocoder モード^[6]）
機械学習

パラレルデータ

パラレル音声変換（英: parallel VC）は同一内容・異スタイルの音声を利用可能な音声変換タスクである。パラレルデータを利用できないタスクは非パラレル音声変換（英: non-parallel VC）と呼ばれる。

より平易な言い方をすれば、パラレル音声変換は「同一文章を読み上げた別話者の音声を利用可能なVCタスク」である。パラレルデータは含まれる音素列の一致が保証されている。よって「正解」相当の変換先音声が与えられていると言える（c.f. 教師あり学習）。しかし発話タイミングや音素継続長の一致は保証されないため、単なるフレーム単位の教師ありスタイル変換として解くことは難しい^[8]。

非パラレル音声変換では正解相当のデータが存在しないことになる。ゆえに信号処理的な固定変換をおこなったり、教師なし学習を用いたりする必要がある。

商品名としての「ボイスチェンジャー」

日本コロムビアが1972年に「ボイスチェンジャー」（商品名）という自動音声交換装置を開発・発売した^[9]。

脚注

^ ^a ^b "ボイスチェンジャー（音声変換）とは，音声を人工的に加工・変換する技術である。（高道慎之介「音声アバターを選ぶ時代」『電気学会誌』第141巻第2号、電気学会、2021年2月、93-96頁、doi:10.1541/ieejjournal.141.93、ISSN 13405551、NAID 130007978857。）
^ ^a ^b "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
^ Kameoka, et al. (2018). StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks.
^ "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
^ "speaker conversion, which is the most widely investigated type of VC." Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
^ ^a ^b "「恋声」には、TD-PSOLAとPhase Vocoderという２種類のピッチ変換方法が搭載されています。" 恋声公式ホームページ. 2024-01-20閲覧.
^ "1990年代中ごろに，確率モデルに基づく手法として，混合正規分布モデル ... に基づく変換法 ... が提案された。" 戸田. (2011). 確率モデルに基づく声質変換技術. 日本音響学会誌, 67巻1号. pp. 34−39
^ "use temporally aligned parallel data of source and target speech as training data. ... we need to perform automatic time alignment ... misalignment involved in parallel data can cause speech-quality degradation" Kaneko. (2017). Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks.
^ 「新製品ご紹介ボイスチェンジャー」『経済知識』1972年8月号、新経済知識社、61頁。NDLJP:1418742/31

外部リンク

この項目は、工学・技術に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（Portal:技術と産業）。

[:0-1] "ボイスチェンジャー（音声変換）とは，音声を人工的に加工・変換する技術である。（高道慎之介「音声アバターを選ぶ時代」『電気学会誌』第141巻第2号、電気学会、2021年2月、93-96頁、doi:10.1541/ieejjournal.141.93、ISSN 13405551、NAID 130007978857。）

[:1-2] "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.

[3] Kameoka, et al. (2018). StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks.

[4] "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.

[5] "speaker conversion, which is the most widely investigated type of VC." Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.

[:2-6] "「恋声」には、TD-PSOLAとPhase Vocoderという２種類のピッチ変換方法が搭載されています。" 恋声公式ホームページ. 2024-01-20閲覧.

[7] "1990年代中ごろに，確率モデルに基づく手法として，混合正規分布モデル ... に基づく変換法 ... が提案された。" 戸田. (2011). 確率モデルに基づく声質変換技術. 日本音響学会誌, 67巻1号. pp. 34−39

[8] "use temporally aligned parallel data of source and target speech as training data. ... we need to perform automatic time alignment ... misalignment involved in parallel data can cause speech-quality degradation" Kaneko. (2017). Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks.

[9] 「新製品ご紹介ボイスチェンジャー」『経済知識』1972年8月号、新経済知識社、61頁。NDLJP:1418742/31

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

概説

定義

用途

形態

利用例

フィクション

音声変換

手法

パラレルデータ

商品名としての「ボイスチェンジャー」

脚注

関連項目

外部リンク