初音ミクより人間よりな歌声合成ソフト SynthesizerV

色々設定をしないと合成音声に近い初音ミク(VOCALOID)に対して、何も設定しなくても自然な歌声が出力できるSynthesizer V Studio Proについて、紹介しています。

記事公開後の2022年10月に発売されたYAMAHAのVOCALOID6(初音ミク)は、より複雑なカスタマイズによる楽器のような方向性に進んでいます。

Synthesizer Vはの特徴は、大幅なエンジン変更があっても無償バージョンアップ対応で買い直しが必要ないところです。

例えば、2023年10月19日に、RLHF(ヒューマンフィードバックによる強化学習)とラップに対応したVer1.10.0が登場しました。

当初は日本語歌詞に対応していませんでしたが、2023年10月26日に日本語ラップに対応した歌声データベースが登場しました。

開発者自身が手がけた、Mai、Yuma、Ryo AI、Saki AI、An Xiao、Cheng Xiao、Cong Zheng、D-Lin、Feng Yi、Kevin、Lin Lai、Mo Chen、Natalie、Ninezero、Ritchy、Qing Su、Weina、Xuan Yu、Yun Quanはすでに日本語でラップってます。

音声データベースのSaki以外は、すべてAI版しかありませんので、買い直しの心配をしなくて大丈夫です。

開発者以外が制作した重音テト AI、桜乃そらなども対応していますが、小春六花 AI、夏色花梨 AI、花隈千冬 AIなど一部の歌声データベースは、調整中になっています。

次回の機能改善追加ですが、2023年12月18日時点で、Studio One5以降やCubase12以降やReaper6で使えるARA(Audio Random Access)と、ボーカルMIDI変換モデルに対応した、Synthesizer V Studio 1.11.0b2がベータ版として公開されています。

ボーカルMIDI変換モデル機能は、インポートしたソロボーカル音声オーディオを右クリックすることで、音符を抽出し、譜面の入力することができます。

ベータバージョンは、AHSマイページより、製品登録後の通常のセットアッププログラムや更新プログラムと同じ場所からダウンロード可能です。数ヶ月以内に正式版になれば、アプリ上から通常のアップデートにて配信されます。

ボイスパラメーターの変化がわかる動画付きSynthesizer V専用歌声データベースの一覧

初音ミクとの違い

初音ミクは、YAMAHAの世界初の歌声合成ソフトウェアのVOCALOID6(ボーカロイド6)でならすことができる歌声データベースのキャラクター名です。VOCALOIDの最新版は2022年10月に登場したVer6です。

初音ミクは、初音ミクですが、Ver6の機能を生かしたYAMAHAオフィシャルショップ専売バージョンに付属する8種類は、かなり人に近い歌声を作り出すことができます。

2023年12月27日時点で、Synthesizer V 1.10.01では、日本語と英語と中国語のラップ歌唱に対応しています。またボーカルMIDI変換モデル機能を搭載した2024年に正式版のベータテスト版Ver1.11.0b2が公開されています。

ラップに対応に加えて、既存の歌声データベースを更によくするRLHF(ヒューマンフィードバックによる強化学習)など、これまで内部の仕組みが変更される大幅アップデートが10回繰り返されてきました。

Synthesizer V Proの無償バージョンアップ対応ですが、一般的なソフトなら、Ver2やVer3といった買い直しが必要な内容で、サブスクリプションサービス並みのアップデートです。

次回のボーカルMIDI変換については、VOCALOID6では有料のVOCALO CHANGER PLUGINが必要です。VOCALO CHANGER PLUGINがよりも、ピッチ編集ソフトのCelemony MelodyneやWaves TuneのMIDI変換機能に近いものかもしれません。

次々にSynthesizer Vの歌声データベースが登場しているため、他社の歌声音声合成ソフトとの差はどんどん広がっています。

既存キャラクタのバージョンアップには難しさがある

「初音ミク」も文章読み上げ型音声合成ソフトの「A.I.VOICE 結月ゆかり」も、古くから使っているファンの間で合成音声風のノイズ感のような音もキャラクター個性の一部として支持されています。

そのため、自然な人間風の歌声の音作りにすると、この歌声は、「初音ミクではない」「ゆかりちゃんじゃない」とバッシングがあるため、AITalk5という音声合成エンジンを使い切らずにあえて音声合成特有のノイズ感を残しているそうです。

ファンが多いCeVIO AI さとうささらも同じような呪縛があります。

決して録音品質が悪いわけではなく、同じ音声収録データを利用したボイスチェンジャーのSeiren Voiceが出力する結月ゆかりは、NVIDIAのGPU支援による合成により、音声合成らしいノイズ(ブザー系)は感じません。

こんなの初音ミクじゃないとファンに言われないために、初音ミクは誰が聞いても初音ミクである必要があるようです。

初音ミクは楽器に近い自由度がある

AI技術を使った歌声合成ソフトとしては後発になった、VOCALOID6は、ベタ打ちで自然な歌声にもなりますが、パラメーターの調節で歌声ががらりと変わる、楽器のような方向性で開発されています。

以前のVOCALOIDで作成された、YouTubeで再生回数が1万回を超えるような初音ミクの歌唱表現には、かなりのノウハウや熟練の技が必要でした。

楽曲制作者が、ミクちゃん頑張って、ああこの音はダメかぁなどと言いながら音声合成特有の歪んだ音を出ないように調節している様子が、VOCALOIDの開発秘話を放送したNHKのドキュメンタリー番組(プロフェッショナル「究極の歌姫〜バーチャルシンガー・初音ミク〜」)で紹介されていました。

ピアノ演奏公開が多いFFVの「ビッグブリッヂの死闘」のような、人ができるはずが無いと思える超絶技巧もありますが、音楽表現があるからこそ、人が曲をカバーする動機にもなっているようです。

無調節で人の歌っているような自然な歌声を求める人が多い一方で、音楽表現を追求する使い方をしている人がVOCALOID使いには多いようです。

VOCALOID6は調整ありきでクリエイターのセンスで歌声が全然違ってくる、楽器的な方向性になっていると、YAMAHAの開発者がどこかで話していました。

SynthesizerVは最小の調節で人間らしい歌声

VOCALOID6に対して、SynthesizerV(公式サイト)は、DTMを触ったことがある人なら、2時間程度で、人が歌っているような音声を作ることができます。

趣味でポチポチ打ち込みむDTMなどの入り口や、カラオケの練習などで正しい音程のお手本にも使える、良いソフトなのでは無いかなと思います。

2022年11月後半に無償バージョンアップしたSynthesizerV Pro1.8.0は、歌い方パラメーター変更による破綻を防ぐ複雑な微調整をしない特徴はそのままで、より人間らしい息づかいで歌うように進化しました。

音声合成のアルゴリズムが斬新されおり、Ver2.0として別ソフトにして売り出しても通用するような変更がされています。

SynthesizerVのもう一つの特徴は、開発者が出している3つの「Saki、Ryo、Kevin」音声データベースも本体の成長と共に改良されています。

Ver1.8対応の歌声データベースに変えたら歌声が変わったという問題に遭遇し、色々なVerの歌声データベースを選べる形に改修されました。

このようにバージョンが違うと、同じ作曲データでも歌声が違ってしまいます。そのため、歌声のバージョンを選ぶことができるようになっています。

2023年には、RLHF(ヒューマンフィードバックによる強化学習)とラップに対応したVer1.10.0が登場しました。

サードパーティ製も、利用者が多いため、本体のバージョンアップと共に、歌声データベースのバージョンが上がって言っています。

詳しい事は表に出てきていないので分かりませんが、収録済みの音声データを使い、本体に追加された新たなパラメータで動作するように再構築しているようです。

Synthesizer VとVOCALOID6のエディタ比較ができるMegpoid

2023年12月20日に突如登場して、少しびっくりしたのが、ヤマハのVOCALOID6専用だったVOCALOID6 Starter Pack AI Megpoidが、なんとSynthesizer Vバージョンで、Synthesizer V AI Megpoid登場しました。

開発者インタビューによると、純粋にSynthesizer Vのエンジンを使ったらどうなるのだろうかという、開発者の好奇心で企画が立ち上がり販売に至ったそうです。

今回はVOCALOID6用に収録した音源をそのまま、Synthesizer V歌声データベース生成用に利用したそうです。

これなら確かに純粋に、Synthesizer VとVOCALOID6を比較することができます。

創作者による調節によって特徴が出しやすいVOCALOID6と、自然だけど誰が作っても同じ感じになってしまうAI生成のSynthesizer Vではエディタの方向性が違う感じがします。

サードパーティー製品にはVOCALOID6標準付属のボイスバンクが含まれていない

色々あって、VOCALOID6 Starter Pack AI Megpoidを購入したのですが、まだインストールしていません。

期限が迫ったDLsiteのご愛顧クーポン利用しようと、旧来の音声合成らしさが残るVoidol3 for macOSVOCALOID6 Starter Pack AI 音街ウナ Completeと、VOCALOID6 Starter Pack AI Megpoidに絞り込み、結構真剣に検討しました。

サードパーティー製品のVOCALID6が同梱されているスタータパックには、メーカー直営ショップのVOCALOID6に含まれている、8名のVOCALOID6新規ボイスバンクと4名のVOCALOID5互換ボイスバンクが、入っていません。

そして残念なことに、標準同梱ボイスバンクの単体販売はありません。

ボカロらしい歌声を目指さず自然な歌声を目指すケースでは、VOICALOID6よりもSynthesizer V Proの方が、歌声データベースの種類も多く魅力的に感じます。

VOCALOIDも発展途上なので、将来VOCALOID7が登場したとき、6と同じようにVOCALOID Editorユーザー向けのアップグレードパッケージを購入する権利が手に入りそうだったので、僕はMegpoidを購入してみました。

ボカロらしい歌声は8bitサウンドなどにも合いそうな感じもあり、ちょっと楽しみです。

どっちが優れているという感じではなく、それぞれの良さがあるので、紹介記事を書いてみようかなと思っています。

期間限定でヤマハ研究スタジオVOCALOID β-STUDIOを立ち上げ

歌声音声合成ソフト業界では完全にSynthesizer Vの独走状態に見える中、2023年8月末頃ようやく重い腰を上げたVOCALOIDの生みの親であるヤマハが期間限定で研究スタジオを立ち上げました。

立ち上げた研究スタジオのVOCALOID β-STUDIOでは、Synthesizer V系の簡易的な方向性を探るべくテスト募集をしています。

ベータ版を利用したMusic Research Contest 2023の結果がすでに発表されており、一次通過した応募作品のタイトルだけでなく作品の試聴ができます。

生声らしいSynthesizer Vは、誰が作っても似てしまう傾向があります。

MPE(MIDI Polyphonic Expression)について

2023年末になりようやく。MPE(MIDI Polyphonic Expression)という複数のノートなど多次元の演奏情報を同時にコントロールできる、新しいMIDI規格(MIDI2.0)に対応した音源や、ポリフォニック・アフタータッチに対応したMIDIキーボードが登場し始めています。

MPE対応楽器(MIDI2.0キーボード)では、指を押し込んだり、揺らしたり、緩めたりといった、微妙な動きに対応したセンサーが入った、実際にアコースティック楽器を演奏しているかのような感覚があります。

もちろんすべてのパラメータはMIDI記録されます。

先行してMPE対応音源として弦楽器のバイオリンや吹奏楽器がありますが、キーボードやMIDIでは表現が難しい歌声合成ソフトへの相性も良さそうな気がします。

MPEの先駆けに近いROLI社のSeaboardは国内代理店の取り扱いはなく、2022年時点では、Expressive E社のToucheOsmoseをはじめとする一部の機器に限られていました。

国内代理店販売はありませんが、SEABOARD RISE2が出ています。

すこしMPEは特殊な存在でした、2023年9月に発表し販売中のNative Instruments社のフラグシップキーボードKOMPLETE KONTROL S61 MK3がポリフォニックを搭載して登場しました。

そして、2023年12月10日にKORG社からも、MPEやポリフォニック・アフタータッチを備えたKeystage 61鍵が登場しました。

今後MIDI2.0と共に、MPE対応音源の登場により色々変わっていくかと思います。

今後MPE対応の歌声合成ソフトが登場しそうな予感

最近、ベルリン・フィル デジタル・コンサートホールにて、ウィーンフィルやベルリンフィルなどの指揮者を務めた小澤征爾さんのヴァルトビューネ 1993を見て感じたのですが、演奏者も指揮者も全身で楽器を奏でています。

小澤征爾さんはヘルベルト・フォン・カラヤン氏や、レナード・バーンスタイン氏に師事し、リッカルド・ムーティさんや、佐渡裕さんも指揮方法に魅せる(見せる)オーケストラを作っていったカラヤン氏の流れを感じます。

2020年代の録音や配信に最適化しているような今の技巧的なオーケストラ指揮とはちがい、1970年から90年代のオーケストラは、演奏の動きや力強さや、音楽性が強いように見えます。

2019年にベルリンフィルを率いて来日したズービン・メータさんもゆったりしていましたが、やっぱりすごかったです。

ほぼ毎年11月頃からサントリーホールに、ベルリンフィルやウィーンフィルが来日公演があります。5月6月頃の先行販売と同時に、楽団裏のB席D席と条件が良い位置にあるS席とA席はほぼ瞬殺してしまい手軽ではないですが、一度聞いておくと音が降ってくるイメージが体感できると思います。

ホールで不思議な立体感を体感した後にDTM勉強の音楽性の参考として1970年から90年代の映像がすごく勉強になっているような気がします。

音楽といったものを捉えると、生声らしい歌声音声合成ソフトが当たり前となった2023年末時点で、感じることは歌声合成ソフトは、生声だけど、感情が乗り切らない教科書通りの歌声のようにも感じます。

そういう感じなので、歌声合成ソフトの方向性から行くと、次は感情表現などに向かっていく予感がします。

そうなると必然的に、揺らぎ表現が得意な、MPE対応の流れに向かいそうな気がします。

まだまだ、第3の歌声合成ソフトの登場もあり得ますが、僕の感覚ではMIDI系技術要素が大きいMPE対応の歌声合成ソフトは、Synthesizer VよりもYAMAHAという楽器メーカーとつながりが深いVOCALOIDの方が早い予感がします。

もしかすると、VOCALOIDが返り咲く可能性もあります。ちょっと、未来の話をしてみました。

2023年時点では、Synthesizer Vが一番優れた歌声合成ソフトだと思います。

ホビー三昧Dによるデモンストレーション

言葉で説明ができないので、ソフトを使い始めた当初に練習で作ったデータから、デモンストレーション動画を作りました。

ベタ打ち入力で、ここまで、人間らしく歌えるなんて凄すぎます。うろ覚えのメロディーを頼りにMIDIを打ち込み、歌詞を入力しているだけです。

ほとんど、調節をしなくても、打ち込んだだけで、これだけ自然に歌い上げます。

「ド」の音域表記について

DAWの音域ですが、国際式の表記では普通の「ド」はC4と決まっていますが、VOCALOIDやYAMAHAのピアノやAppleのLogicProなどのDAWでは普通の「ド」の音はC3です。ちなみにFL-Studoの「ド」はC5になっています。
ここだけ、押さえておけば、楽譜からピアノロールへの打ち込みができると思います。

テンポのBPMに付いては、メトロームアプリで探っていくか、FL-Studioの「Tempo Tapper」で見つけて、設定する必要があります。だんだん、マニアックになってきた。

さらに、合唱などの前段階として複数の歌手が同じ旋律を歌う斉唱によるデモソングを作ってみました。

少し動画が長くなっていますが、打ち込んだままでパラメーターを調節していない状態と、調節した後を確認することができます。

動画内で、ビブラートの抑制について話していますが、デフォルトビブラート設定から、開始タイミングを1.00secに変更するだけでOKです。また、ピッチの深さも変更することができます。

さらに、SynthesizerVStudio1.9.0b1にて、プロパティパネルから、プロジェクト全体で動作していた簡易ピッチモードをノートプロパティの「ピッチモード」のオプションを再設計し、より細かく調整できるようになりました。パラメータパネル:「ビブラートエンベロープ」パラメータがAl生成ピッチにも適用されるようになります。

もう、どんどん進化して言っています。

Synthesizer V cover

Ryoの後に再生された[Synthesizer V cover]と題に付いている動画がいくつか再生されたのを見て、最初は、音声合成のSynthesizer Vの曲を人が歌ってカバーしているかと思ったけど、逆でした。

沢山の人がカバーしている歌声合成ソフトである初音ミクの歌とは、違うみたい。これじゃぁ人がカバーする気にならないかも。

Synthesizer Vは、完成したお手本を作るソフトのようにも見えてきた。

無料で使えるBasic版本体とLite版音源データベース

SynthesizerVには、無料で使える本体のBasicバージョンと、同じく無料で使えるLite版の音声データベースがあります。

動画内などに使用したソフト名であるSynthesizerV BasicとLite版の音声データベース名のクレジット表記を入れることで、YouTubeなどでの配信に使うことも許可されています。

Lite版の音声データベースは、若干ノイジーですが有償版の音声データベースを購入する前の歌声傾向を確認してもらう意味も込められているそうです。

最近方針が変わったようで、新しく発売される音声データベースのLite版は公開されない傾向があり、RyoとKevinも公開されていませんでした。

公式のデモソング

公式のRyoのデモソングが公開されていました。

Ryo

Ryoは、こんな歌声だったんだ。。。実際に使ってみると、この動画と同じ若い声で、僕の中では、これならSakiでも対応できそうに感じて、買わなくても良かったかなと思いました。

ちょこっといじりながら、ボーカルスタイルを変化したら、ちょっとSakiにない感じで歌い始めたので、これはこれでと思えました。Ryoは、基準のC3より若干低いB2まで声が出ます。

Kevin

次は、English系のKevinのデモソングです。

Kevinの方が、大人びている声がします。低域よりでG2まで歌えます。F2より下も音が出ますがガラガラのうがい声になってしまいます。

Synthesizer Vは、英語も日本語も中国語も、一つの歌声データーベースで歌わせることができます。つまり、Kevinは日本語で歌えます。

個人的な感想

個人的には、もう少し年を重ねたおじさんの声や、クラシック系のバスからバリトンがどっしりと綺麗に響く、声データーベースが出ないかなぁ。男性は難しいのかもしれません。需要がないのかも。

すでに完成形の初音ミクと違い、人間的な歌唱に方向性が向いているため、まだまだ伸びしろがあります。

生きている間は権利の関係で無理だと思いますが、SynthsizererV系で、小田和正さんや、井上陽水さん、玉置浩二さんの、音声データベースが出たら、凄いことになりそうです。。。。そういったレベルのソフトです。

歌唱指導にMelodyne Studioが役立つかも

絶対音感がないので、MIDIキーボードから入力していますが、Melodyne StudioWaves Tuneなどのピッチ補正ソフトに付いている、歌声からMIDIが作成できる機能などが付いたら、歌唱指導がもっと楽にできそうです。

使い方が逆ですが、久しぶりにMelodyne Studioを起動して、自分が歌った波形を見ながら、SynthesizerVで波形補正を書けていくという使い方を思いつきました。

初音ミクで曲を作っている方が、この波形たまらないと言っていました。初音ミクでは音声波形を見ながら、それぞれの「ウチのミクちゃん」の歌声へと調節して行っているようです。

なんとなく、こういう風に歌って欲しいと思っても、どう近づけたら良いか分からなかったのですが、すこし道が開けた気がします。

ヤマハのデジタル楽譜サービス

いきなり、楽譜の話になってしまいますが最近、ヤマハのぷりんと楽譜というデジタル楽譜の販売サイトがとても便利なサービスだと最近気付きました。

楽譜の改編はできませんが、JASRACが管理している曲であれば、制作元が「ヤマハミュージックメディア」になっている楽譜の演奏を連絡なしでYouTubeとニコニコ動画で公開する事もできます。

ヤマハぷりんと楽譜:よくある質問より

スマホによる楽譜閲覧の定額サービスと、PDFでの購入サービスもあり、500円程度で楽譜を買ってしまえば、「ふるさと」などの、著作権が失効している作品にこだわらなくてもやりたい放題なので、最近気になっています。

企業プロモーション系楽曲に強いプロの作曲家の方と話をしたことがあるのですが、DAW上達の早道はできあがった楽譜をどんどん打ち込んで数をこなすことだといっていました。ヤマハのぷりんと楽譜って、最高です。

買い切りなのに進化し続ける製品

開発者のDreamtonics氏が手がける、3つの「Saki、Ryo、Kevin」音声データベースは、サードパーティ製のものと違い、SynthesizerVに追加されたボーカルスタイル対応などに追随して、データーベースがどんどん進化していきます。

発売中の小春六花と夏色花梨の歌声データベースについては、ボーカルスタイル対応に時間がかかりますがアップデートで対応すると販売元のAHSが発表しています。

作成歌声の権利関係

サードパーティ製の小春六花などキャラクターを利用する場合は、書くソフトの利用規約にある、クレジット表示などを守る必要があります。

更に、歌声を使った作品によって得た収入によっては、商用ライセンスの購入が必要になるケースのあります。

SynthesizerVの開発者であるDreamtonics氏が発売している、Saki、Ryo、Kevinの有償版の音声データベースを使用した作品には、ボーカル名に音源データベース名や使用ソフト名を明記する必要はありません。

詳しくはSynthesizer V 使用許諾(公式サイト)に書かれています。

ソフトライセンスのPC間移動

有料版のSynthesizerV Studio Proと対応する有料音声データーベースのライセンス認証(アクティベーション)は、インターネットにつながっていれば、何度でも認証と解除をすることができます。

感動のアクティベーション入力

ライセンスコードをコピーした状態で、アクティベーションが解除された、Studio Proを起動すると、入力しなくてもコピーしているライセンスコードが入力された状態で立ち上がり、確認ボタンを押すだけで利用できます。

Affinity Pothoシリーズでも感動しましたが、いちいち、16桁を枠ごとにコピー・アンド・ペーストを繰り返さなくて良いのは、非常に快適です。

個別にアクティベーション解除と認証ができる

Studio Pro本体と、複数インストールされている音声データベースは個別に、認証と解除ができます。

音声データベースは、SynthesizerV Studio ProとSynthesizerV Basicの両方で利用でき、認証と解除はBasicでもStudio Proでも行うことができ反映されます。

AHSのマイページに、ユーザー登録をすると、ライセンスコードも一緒に表示がされるので、MacBookなど指認証がついているパソコンなら、ログイン画面の自動入力と合わせると、PC間のアクティベーション移動がすごく簡単になります。

値引き販売情報

年に数回の特別クーポン配布によるセールが行われたDLsiteから、ほとんど半額で購入来ました(Download版のみ)。

今回は、VOICEPEAK 商用可能 6ナレーターセットが10%OFFになっています。CeVIO AI 小春六花 トークスターターパックは20%OFFです。Synthesizer V Studio Proは、10%OFFです。

追加で「夏の音声ツールセール 特集ページ」が開設されました。DLsite内なら全てのページで特設や特集ページと同じセール価格になっています。つまり、DLsite内で更に安いページを探す必要がありません。

パッケージ版はメーカー直売のAHSストアーからユーザー登録者限定販売を購入する方が安価に入手できると思います。

クーポン情報などは、DLsiteのクーポン情報とお買い物についてに別記事にしました。文章読み上げ型音声合成ソフトのVOICEPEAK 商用可能 6ナレーターセットもお勧めです。

タイトル通り「商用ナレーターに使える音声合成ソフトを買うなら今しかない。と断言ぐらい安いセール情報(VOICEPEAKとCeVIO AI)」ホントにびっくりし、デモンストレーション動画付きで紹介記事まで書いてしまいました。