Vocoflex(ボコフレックス)は、リアルタイムで歌声を作り出す音声モーフィングプラグインとして、Dreamtonicsが開発し、2024年7月30日から販売中のエフェクト系プラグインソフトです。

ホビー三昧D的にはボイスチェンジャーと紹介された方がピンとくる感じがします。

開発中の時、そもそも音声モーフィングとは何?どういった音声合成研究と関連があるのかなどを調べながら「ボイスパラメーターの変化がわかる動画付きSynthesizer V専用歌声データベースの一覧」の中で紹介していましたが、長くなったので独立したページにしました。

いずれ、遠くはないけど近くもない未来にVocoflexを購入し、手持ちの歌声DBの組み合わせてテストした動画などを作ってみようかなと思っています。。。その前の、調べたことなどをまとめた記事です。

Vocoflexとは

公式サイトでは、音声モーフィングプラグインと紹介されているのですが、いまいちよくわかりません。

とりあえず、公式のVocoflexの機能を紹介する動画があったため、こちらを見てください。このあとに、音声合成研究の方向から、音声モーフィングについて調べたことを紹介していきます。

YouTube: Vocoflex 全機能のご紹介(公式)

いまいち僕自身が理解し切れていませんが、どうやら、Vocoflexは、20秒程度の音声から解析した特徴を、入力した歌声にリアルタイムで混ぜ合わせることで、新たな歌声を作り出すボイスチェンジャーようなソフトです。

そして、歌声合成ソフトのSynthesizer V Studioとシームレスに連動することができ、歌声データベースを利用した歌声にも掛け合わせもできます。

※利用できるのは、Synthesizer Vを開発しているDreamtonicsオリジナル歌声データベース(Saki Ayame Ryouなど)です。

開発中の公式紹介動画

実はこの記事を最初に書いたときには、まだ発売予定日未定の段階でした。開発中の公式の紹介動画を紹介します(サンプル音源が紹介される途中まで無音の動画です)。

YouTube:音声モーフィングエンジン「Vocoflex(ボコフレックス)」紹介動画(公式)

「音声モーフィング」とは

ここからは、学術的な方向から「音声モーフィング」がどういったものかを調べて見たことを書いていきます。

学会情報を調べてみたところ、音声モーフィングとは、TANDEM-STRAIGHT法による新しい音声分析変換合成法を利用した、ボイスチェンジャーである可能性が極めて高いと感じました。

※わかりやすい論文:J-STAGE(国立研究開発法人科学技術振興機構運用の科学技術情報発信・流通総合システム)TANDEM-STRAIGHTと音声モーフィング : 感情音声と歌唱研究への応用(<特集>音声が伝達する感性領域の情報の諸相)

複数の音声のピッチと音色を混ぜ合わせ、なめらかに変化させることができるようなもので、入力した歌声の特徴に対して、別の歌唱の特徴を転写する仕組みのようです。

Vocoflex 悪用防止の仕組み

日本音声言語医学会の音声言語医学 50巻(2009)2号の、音声モーフィングの背景と可能性(J-STAGE)にあるとおり、元の音声とほとんど区別できない音声を再合成できるのが、TANDEM-STRAIGHTの重要な特徴です。

中世の裁判で「言った言わない」が争点になることが多いようですが、音声モーフィングは悪用される危険性が高い技術です。

そのため、Vocoflex開発元のDreamtonics社は、悪用を防止するため、購入には免許証などの個人情報の登録を必須とし、Vocoflexが生成する音声には、ライセンスIDと紐付いた独自のウォーターマークが入ります。

ウォーターマークは、TV放送の右上に写っている放送局のロゴのような目立たない「透かし」のことです。

画像や映像と違い、音の場合は目に見えませんが、特殊な処理をすることで、埋め込まれたウォーターマーク(しるし)が浮き出る仕組みになっています。

Vocoflexのウォーターマークについて

一般的に、音声を利用するときには、エコーやエフェクトやノイズ処理などの、さまざまな加工をします。

そのため、少々の編集加工では消すことができない工夫が必須となります。

そのため、Dreamtonics社では、ウォーターマーク技術の開発や堅牢製のテストなどかなり慎重に作っていた様子がうかがえます。

ウォーターマークは肉声にも使えるか?

Vocoflexのウォーターマークは、Vocoflexを利用した悪用を防止するための仕組みとなっているため、「誰が生成したか?」に焦点が当てられています。

そのため、肉声を対象にはしていません。

VOICEPEAKなどの音声合成技術の向上により、音声合成と肉声を見分けるための技術研究が、色々なところで行われています。

現在の音声合成技術を使った生成音声を解析すると、柔らかく変化する人間の喉と違い、リコーダーのようなパイプ状の固形物から出ている事がわかる特徴があります。

VocoflexもSynthesizer Vと同じような仕組み(アルゴリズム)やパラメーター要素を使い、合成音声が作られているため、解析することで音声合成特有の常に変化しない隙間ができる可能性が大きいです。

内部のウォーターマーク技術がどうなっているかは、わかりませんが、ウォーターマークは、音声合成特有の、常に変化しない隙間に埋め込まれているのではないかなと考えられます。

ウォーターマークがVocoflexの持つ内部パラメーターとの組み合わせで作られているとすると、肉声などの人間の声には適用できないのではないかなと思います。。。

歌声だけでなく、音声にも織り込むことができる技術であれば、単体機能として、自分が公開した作品に対する、音声抜き取り利用に対する著作権侵害を立証する証拠のツールとして、音声合成ソフト以上の可能性があると思います。

声の問題について

2024年時点で、許可無く人気声優さんの声を元に生成した音声合成作品が声優関連の業界で問題となっています。

肖像権とは違い、2024年8月の現時点でどこの国にも、他人に自分の声を勝手に解析され利用されることに対する、保護法は存在しません。

しかし、一般的に財産権の一部と考えられている、タレントやスポーツ選手などの有名人が、名前や肖像を営利目的で独占使用できるパブリシティー権が存在します。

エンターテインメント業界を見ていると、明確な法律や判例が存在しない一方で、暗黙のルールのような物が存在し、ある程度機能はしています。。。ただし、これは業界の外の方には通用しません。

Vocoflexの悪用防止技術について

Vocoflexの悪用防止技術は、歌唱業界や声優業界の所属タレントを多く持つ事務所にとっては効果があります。

それは、所属タレントの歌声と酷似している不利益な作品が見つかったとき、生成者の身元確認を取れる手段があることは、問題となる作品の公開者や制作者に対して、パブリシティ権を行使する助けになるからです。

ただし、これは、常に経済的損失などお金に換算して判決が出る民法といった経済的損失を立証できる、パブリシティ権を立証できる有名人に対してのみ有効なケースです。

現時点ではそもそも、音声合成を利用した犯罪に対する刑法など、人権に関する保護法や裁判判例がないため、個人を保護する法律はありません。

個人に対しては、先の声の問題について書いた通り、人権として声を守るための法律が整備されるまでは、裁判費用などから、泣き寝入りになるかと思います。

声は容姿と同じぐらい人格と直結しており、いずれ、重い罪として刑法に記されるようになると思います。

もしかすると、頭の中で常に聞こえている自分の声は、自分の目で直接見ることができない容姿以上に、悪用されたときの精神的影響は大きいと思います。

自分がされて嫌なことを他者に対してしない方が良いと思います。

音声に使えるモーフィングプラグインは出ない可能性大

読み上げ音声合成ソフトのVOICEPEAKも開発しているDreamtonics社は、Vocoflexは、音声には使えないようにしてあるとしています。

たしかに、歌声ではなく音声に使えるようになると、振り込み詐欺(オレオレ詐欺)が横行し、最後は対面以外では信用できないという、窮屈な世界になってしまうかもしれません。

Vocoflexで使えるSynthesizer V歌声データベース

Vocoflex(ボコフレックス)には、はじめから40種類のボイスプリセットが付属されています。

さらに、Synthesizer Vを開発しているDreamtonicsオリジナル歌声データベース(Saki Ayame Ryouなど)を、掛け合わせて使うこともできます。

別途明記されていない限り、Synthesizer V Studioの歌声データベースを入力音声として使用できるのは、Dreamtonicsオリジナル歌声データベースのみが対象です。

公式:リアルタイムで歌声を作り出す音声モーフィングプラグイン、『Vocoflex(ボコフレックス)』を発表

これは、Synthesizer Vの歌声データベースをすでに多数所有している方にとっては朗報です。

注意点として、小春六花やフリモメンなどサードパーティ製は、肖像権やパブリシティ権などが関係するため、使用許諾を確認する必要があります。。。。たぶん、使えません。

歌声データベースについては、「ボイスパラメーターの変化がわかる動画付きSynthesizer V専用歌声データベースの一覧」にて、所持品に対して同じ条件で歌声を比較できるホビー三昧D独自のパラデモ動画付きで紹介しています。

正式版Vocoflexの販売情報

2024年7月30日に発売されたVocoflexの販売情報です。とはいっても、現状では、販売元のAHS直営店からしか購入することができません。

購入できるお店と価格

2024年8月時点で、購入は販売元のAHS直営店のみの取扱となっておりDLsiteからの購入はできません。

ちなみに販売価格は単体版が31,900円(2024年8月時点)です。

海外プラグインと違い為替は影響しないため、値上げをしない限り31,900円で購入できます。すごいリーズナブルな価格設定だと思います。

また、音声データベースが入った「Vocoflex + Synthesizer V バンドル版(歌声DB 9本入り)」が99,000円で販売されています。

DLsiteで実際に購入できる価格予想

2024年8月時点でAHS直営店のみの取扱となっているため、DLsiteでの取扱はありませんが、いつものSynthesizer V音源の取扱開始時期から、半年から1年後ぐらいには出てくる可能性もあります。

31,900円の単体版がDLsiteから購入できるようになると、毎月定期的に出ているDLsiteクーポンを使うことで4,785円(15%OFF)から6,380円(20%OFF)安く購入できます。

現時点での入手価格

AHS直営店では「Vocoflex + Synthesizer V バンドル版(歌声DB 9本入り)」が99,000円で販売されています。

ハンドルされている9つの音声DBは

  • Hayden
  • Natalie
  • Sheena
  • Kevin
  • Ninezero
  • Ritchy
  • Ayame
  • Wei Shu
  • Eri

です。

Vocoflex本体を購入することはできませんが、歌声DB(歌声データベース)はDLsiteから購入することができます。

DLsiteでよくある通常キャンペーン10%OFF割引キャンペーン価格に、18%OFFクーポンを利用すると、歌声DBが1本7,144円となり9本では64,296円になります。

これにAHS直営店の31,900円を加えると、総額は96,196円となります。

AHS直営店の9本入りセットに対して、DLsiteで歌声DBだけ購入して組み合えたときの差額は、約2,804円となります。

あまり参考にはなりませんが、価格だけ書いておきました。

最後に

なにも9本購入する必要は無く、組み合わせのデモ動画があれば、必要な物をチョイスするのが一番お得です。

個人的には、歌声データベース毎に、Vocoflexと組み合わせて使ったときの声の変化がわかる動画がほしい気がします。

ただし、今年はちょっとお金を浪費しすぎてしまい、自制が必要な段階なので、いずれ遠くはないけど近くもない未来にVocoflexを購入し、手持ちの歌声DBの組み合わせ動画などを作ってみようかなと思っています。。。。

12本もある「ボイスパラメーターの変化がわかる動画付きSynthesizer V専用歌声データベースの一覧」のパラデモ動画の作り直しなども保留中なので、Vocoflexとの組み合わせ動画などと、同時にやった方が良いのかもしれません。

ところで、最近、「EAST WEST HOLLYWOOD CHOIRS」や、「HOLLYWOOD FANTASY STRINGS」や「HOLLYWOOD STRINGS 2」夢中になっていて。。。Synthesizer Vを起動していなかったりするため、Vocoflexで遊んでいる時間が。。。ないですが、とっても楽しみです。

Vocoflexを使って、バイオリンの音と組み合わせたらどうなるんだろう。。。。