リアルなボイスチェンジ（男声と女声）は実現可能かを波形データから検証

2017-11-01

男性の声と女性の声（以降では男声と女声と表記）は音程以外にも違いがいくつかあります。
このページではその違いを実際に波形データを見比べながら述べていきます。
違いを把握すると同時に、リアルなボイスチェンジについても触れます。

・周波数での比較

次の画像は男声と女声の音域をスペクトラムアナライザーを使って取得したデータです。
スペクトラム比較

普通の話し言葉の一部の音を拾ったものですが、基音をなるべく揃える為に男声側は1オクターブ程高めの声を出しているところです。

どちらも倍音が含まれていますが、男声の方が女声に比べて基音の割合が多く、逆に女声は2倍音の割合が多めという印象です。

なので男声が無理矢理高い声を出しても、まだまだ低い音域の成分が強いので野太さが残ってしまうという特徴があります。

周波数をイコライザーで調整したとしても、元々の”倍音の組み合わせ”は変化できないので、残念ながら声の形までは変える事が出来ません。

次の画像は声の波形を拡大して見比べたものです。

多少音程が違うので波の回数に差がありますが、声の性質には関係ありません。

波形比較

この部分は両方とも母音の響きを拾ったものですが、男声に比べて女声の方が振動の”ぶれ方”が少ないという印象です。

これは発音時の声の”綺麗さ”を表しており、女声の方がより”澄んだ音”という言い方が適しているでしょう。

男声でも振動にぶれが少ない人は、ファルセットで歌えば女声に近い声になります。

しかし先の倍音の関係があるのでどうしても野太さが残ってしまいます。

波形比較

こちらは更に波形を大きく拡大した画像です。

ここまで拡大してしまうとはっきりとは見分けにくいですが、男声は無理矢理オクターブ高く発音しているので、振動エネルギーが弱く不安定な状態です。

もし女声が1オクターブ低ければ、男声とほぼ同じかそれよりも低い声になりますが、基音のエネルギーが少ないのでやはり聴こえ方は女声らしく聴こえます。

ボイスチェンジャーとはその名の通り”声を変える”ものです。

マイクを使って機械に音声を取り込み、ピッチシフターやイコライザーというエフェクトをかけたりしてスピーカーから出力する仕組みです。

現在でも様々なソフトが出回っていますが、残念ながら”リアルな声”とは程遠いものです。

理由はやはり波形の違いです。

どれだけ音程や音域を変えても波形そのものは変わらないので、”別人の声”にはなりません。

大げさかもしれませんが、ヴァイオリンの音をフルートの音に変えるぐらいに差があるのです。

波形そのものを変える事は難しいので、あらかじめサンプリングした音声を再生するという方法ならボイスチェンジはある程度実現できるでしょう。

単純に入力した声の音程を解析して、それに応じた音源を再生してしまうのです。

ただし「あー」なのか「いー」なのかの違いまで認識するのはとても難しいです。

それに子音まで入ってくるとノイズと認識されるので正確な音程が拾えません。

なのでボイスチェンジを行うには、

という順序が必要になってくるので、処理速度やサンプル収集の問題もあり現実的ではありません。

AIの進化で会話可能なロボットも開発されてきていますが、人の声を完璧に認識するのはまだまだ難しい技術なのです。