初音ミクより人間よりな歌声合成ソフト SynthesizerV

色々設定をしないと合成音声に近い初音ミク(VOCALOID)に対して、何も設定しなくても自然な歌声が出力できるSynthesizer V Studio Proについて、紹介しています。

記事公開後の2022年10月に発売されたYAMAHAのVOCALOID6(初音ミク)は、より複雑なカスタマイズによる楽器のような方向性に進んでいます。

Synthesizer Vは2023年4月18日に、ラップに対応版の正式版の前のベータバージョンを公開しています。現在ラップは中国語と英語だけですが、なんと、今後日本語にも対応予定と書かれています。

新しい、Synthesizer V1.9.0b1の公開と同時に、開発者自身が手がける歌声データベース、Al Saki、AI Ryo、Al Kevin、Yuma、Al Natalie、AI Mo Chen、Al Qing Su、AI Feng Yi、Al An Xiao、Al Ninezero、AI Maiも、ベータバージョンが公開されています。

音声データベースのSaki以外は、すべてAI版しかありませんので、買い直しの心配をしなくて大丈夫です。

ベータバージョンは、AHSマイページより、製品登録後の通常のセットアッププログラムや更新プログラムと同じ場所からダウンロード可能です。数ヶ月以内に正式版になれば、アプリ上から通常のアップデートにて配信されます。

Synthesizer V Studioの音声データベースの一覧

初音ミクとの違い

初音ミクは、YAMAHAの世界初の歌声合成ソフトウェアのVOCALOID6(ボーカロイド6)でならすことができる歌声データベースのキャラクター名です。VOCALOIDの最新版は2022年10月に登場したVer6です。

初音ミクは、初音ミクですが、Ver6の機能を生かしたYAMAHAオフィシャルショップ専売バージョンに付属する8種類は、かなり人に近い歌声を作り出すことができます。

2023年4月18日時点で、Synthesizer V 1.9.0b1(ベータバージョン)にて、英語と中国語のラップ歌唱に対応しました。

2022年11月24日の正式版として大幅にアップデートした1.8から半年もたたないうちに、ラップ対応などという更に大幅なアップデートが来ています。

内部の仕組みも大幅に変更されているらしく、これは、Ver2やVer3やサブスクリプションサービス並みのアップデートです。

今後も、更新購入が必要なアップグレードではなく、次の1.9.0に続き、Synthesizer V 1.10.0とアップデートで続いていったら、他社の歌声音声合成ソフトとの差はどんどん広がります。

キャラクタのバージョンアップの難しさがある

「初音ミク」も文章読み上げ型音声合成ソフトの「A.I.VOICE 結月ゆかり」も、古くから使っているファンの間で合成音声風のノイズ感のような音もキャラクター個性の一部として支持されています。

そのため、自然な人間風の歌声の音作りにすると、この歌声は、「初音ミクではない」「ゆかりちゃんじゃない」とバッシングがあるため、AITalk5という音声合成エンジンを使い切らずにあえて音声合成特有のノイズ感を残しているそうです。CeVIO AI さとうささらも同じような呪縛があります。

同じ音声収録データを利用したボイスチェンジャーのSeiren Voiceが出力する結月ゆかりは、NVIDIAのGPU支援による合成により、音声合成らしいノイズ(ブザー系)は感じません。

初音ミクは誰が聞いても初音ミクである必要があるのです。

初音ミクは楽器に近い自由度がある

AI技術を使った歌声合成ソフトとしては後発になった、VOCALOID6は、ベタ打ちで自然な歌声になるのではなく、パラメーターの調節で歌声ががらりと変わる、楽器のような方向性で開発されています。

そのため、初音ミクでYouTubeで再生回数が1万回を超えるような歌唱表現には、かなりのノウハウや熟練の技が必要になっています。

ミクちゃん頑張って、ああこの音はダメかぁなどと言いながら音声合成特有の歪んだ音を出ないように調節しているようです。だからこそ、人が曲をカバーすることができるのです。

いっぽうで、そういう使い方をしている人がいるため、VOCALOID6は調整ありきでクリエイターのセンスで歌声が全然違ってくる楽器的な方向性になっていると、YAMAHAの開発者がどこかで話していました。

SynthesizerVは最小の調節で人間らしい歌声

VOCALOID6に対して、SynthesizerV(公式サイト)は、DTMを触ったことがある人なら、2時間程度で、人が歌っているような音声を作ることができます。

趣味でポチポチ打ち込みむDTMなどの入り口や、カラオケの練習などで正しい音程のお手本にも使える、良いソフトなのでは無いかなと思います。

2022年11月後半に無償バージョンアップしたSynthesizerV Pro1.8.0は、歌い方パラメーター変更による破綻を防ぐ複雑な微調整をしない特徴はそのままで、より人間らしい息づかいで歌うように進化しました。

音声合成のアルゴリズムが斬新されおり、Ver2.0として別ソフトにして売り出しても通用するような変更がされています。

SynthesizerVのもう一つの特徴は、開発者が出している3つの「Saki、Ryo、Kevin」音声データベースも本体の成長と共に改良されています。

Ver1.8対応の歌声データベースに変えたら歌声が変わったという問題に遭遇し、色々なVerの歌声データベースを選べる形に改修されました。

このようにバージョンが違うと、同じ作曲データでも歌声が違ってしまいます。そのため、歌声のバージョンを選ぶことができるようになっています。

サードパーティ製も、利用者が多いため、本体のバージョンアップと共に、歌声データベースのバージョンが上がって言っています。

詳しい事は表に出てきていないので分かりませんが、収録済みの音声データを使い、本体に追加された新たなパラメータで動作するように再構築しているようです。

ホビー三昧Dによるデモンストレーション

言葉で説明ができないので、ソフトを使い始めた当初に練習で作ったデータから、デモンストレーション動画を作りました。

ベタ打ち入力で、ここまで、人間らしく歌えるなんて凄すぎます。うろ覚えのメロディーを頼りにMIDIを打ち込み、歌詞を入力しているだけです。

ほとんど、調節をしなくても、打ち込んだだけで、これだけ自然に歌い上げます。

「ド」の音域表記について

DAWの音域ですが、国際式の表記では普通の「ド」はC4と決まっていますが、VOCALOIDやYAMAHAのピアノやAppleのLogicProなどのDAWでは普通の「ド」の音はC3です。ちなみにFL-Studoの「ド」はC5になっています。
ここだけ、押さえておけば、楽譜からピアノロールへの打ち込みができると思います。

テンポのBPMに付いては、メトロームアプリで探っていくか、FL-Studioの「Tempo Tapper」で見つけて、設定する必要があります。だんだん、マニアックになってきた。

さらに、合唱などの前段階として複数の歌手が同じ旋律を歌う斉唱によるデモソングを作ってみました。

少し動画が長くなっていますが、打ち込んだままでパラメーターを調節していない状態と、調節した後を確認することができます。

動画内で、ビブラートの抑制について話していますが、デフォルトビブラート設定から、開始タイミングを1.00secに変更するだけでOKです。また、ピッチの深さも変更することができます。

さらに、SynthesizerVStudio1.9.0b1にて、プロパティパネルから、プロジェクト全体で動作していた簡易ピッチモードをノートプロパティの「ピッチモード」のオプションを再設計し、より細かく調整できるようになりました。パラメータパネル:「ビブラートエンベロープ」パラメータがAl生成ピッチにも適用されるようになります。

もう、どんどん進化して言っています。

Synthesizer V cover

Ryoの後に再生された[Synthesizer V cover]と題に付いている動画がいくつか再生されたのを見て、最初は、音声合成のSynthesizer Vの曲を人が歌ってカバーしているかと思ったけど、逆でした。

沢山の人がカバーしている歌声合成ソフトである初音ミクの歌とは、違うみたい。これじゃぁ人がカバーする気にならないかも。

Synthesizer Vは、完成したお手本を作るソフトのようにも見えてきた。

無料で使えるBasic版本体とLite版音源データベース

SynthesizerVには、無料で使える本体のBasicバージョンと、同じく無料で使えるLite版の音声データベースがあります。

動画内などに使用したソフト名であるSynthesizerV BasicとLite版の音声データベース名のクレジット表記を入れることで、YouTubeなどでの配信に使うことも許可されています。

Lite版の音声データベースは、若干ノイジーですが有償版の音声データベースを購入する前の歌声傾向を確認してもらう意味も込められているそうです。

最近方針が変わったようで、新しく発売される音声データベースのLite版は公開されない傾向があり、RyoとKevinも公開されていませんでした。

公式のデモソング

公式のRyoのデモソングが公開されていました。

Ryo

Ryoは、こんな歌声だったんだ。。。実際に使ってみると、この動画と同じ若い声で、僕の中では、これならSakiでも対応できそうに感じて、買わなくても良かったかなと思いました。

ちょこっといじりながら、ボーカルスタイルを変化したら、ちょっとSakiにない感じで歌い始めたので、これはこれでと思えました。Ryoは、基準のC3より若干低いB2まで声が出ます。

Kevin

次は、English系のKevinのデモソングです。

Kevinの方が、大人びている声がします。低域よりでG2まで歌えます。F2より下も音が出ますがガラガラのうがい声になってしまいます。

Synthesizer Vは、英語も日本語も中国語も、一つの歌声データーベースで歌わせることができます。つまり、Kevinは日本語で歌えます。

個人的な感想

個人的には、もう少し年を重ねたおじさんの声や、クラシック系のバスからバリトンがどっしりと綺麗に響く、声データーベースが出ないかなぁ。男性は難しいのかもしれません。需要がないのかも。

すでに完成形の初音ミクと違い、人間的な歌唱に方向性が向いているため、まだまだ伸びしろがあります。

生きている間は権利の関係で無理だと思いますが、SynthsizererV系で、小田和正さんや、井上陽水さん、玉置浩二さんの、音声データベースが出たら、凄いことになりそうです。。。。そういったレベルのソフトです。

歌唱指導にMelodyne Studioが役立つかも

絶対音感がないので、MIDIキーボードから入力していますが、Melodyne StudioWaves Tuneなどのピッチ補正ソフトに付いている、歌声からMIDIが作成できる機能などが付いたら、歌唱指導がもっと楽にできそうです。

使い方が逆ですが、久しぶりにMelodyne Studioを起動して、自分が歌った波形を見ながら、SynthesizerVで波形補正を書けていくという使い方を思いつきました。

初音ミクで曲を作っている方が、この波形たまらないと言っていました。初音ミクでは音声波形を見ながら、それぞれの「ウチのミクちゃん」の歌声へと調節して行っているようです。

なんとなく、こういう風に歌って欲しいと思っても、どう近づけたら良いか分からなかったのですが、すこし道が開けた気がします。

ヤマハのデジタル楽譜サービス

いきなり、楽譜の話になってしまいますが最近、ヤマハのぷりんと楽譜というデジタル楽譜の販売サイトがとても便利なサービスだと最近気付きました。

楽譜の改編はできませんが、JASRACが管理している曲であれば、制作元が「ヤマハミュージックメディア」になっている楽譜の演奏を連絡なしでYouTubeとニコニコ動画で公開する事もできます。

ヤマハぷりんと楽譜:よくある質問より

スマホによる楽譜閲覧の定額サービスと、PDFでの購入サービスもあり、500円程度で楽譜を買ってしまえば、「ふるさと」などの、著作権が失効している作品にこだわらなくてもやりたい放題なので、最近気になっています。

企業プロモーション系楽曲に強いプロの作曲家の方と話をしたことがあるのですが、DAW上達の早道はできあがった楽譜をどんどん打ち込んで数をこなすことだといっていました。ヤマハのぷりんと楽譜って、最高です。

買い切りなのに進化し続ける製品

開発者のDreamtonics氏が手がける、3つの「Saki、Ryo、Kevin」音声データベースは、サードパーティ製のものと違い、SynthesizerVに追加されたボーカルスタイル対応などに追随して、データーベースがどんどん進化していきます。

発売中の小春六花と夏色花梨の歌声データベースについては、ボーカルスタイル対応に時間がかかりますがアップデートで対応すると販売元のAHSが発表しています。

作成歌声の権利関係

サードパーティ製の小春六花などキャラクターを利用する場合は、書くソフトの利用規約にある、クレジット表示などを守る必要があります。

更に、歌声を使った作品によって得た収入によっては、商用ライセンスの購入が必要になるケースのあります。

SynthesizerVの開発者であるDreamtonics氏が発売している、Saki、Ryo、Kevinの有償版の音声データベースを使用した作品には、ボーカル名に音源データベース名や使用ソフト名を明記する必要はありません。

詳しくはSynthesizer V 使用許諾(公式サイト)に書かれています。

ソフトライセンスのPC間移動

有料版のSynthesizerV Studio Proと対応する有料音声データーベースのライセンス認証(アクティベーション)は、インターネットにつながっていれば、何度でも認証と解除をすることができます。

感動のアクティベーション入力

ライセンスコードをコピーした状態で、アクティベーションが解除された、Studio Proを起動すると、入力しなくてもコピーしているライセンスコードが入力された状態で立ち上がり、確認ボタンを押すだけで利用できます。

Affinity Pothoシリーズでも感動しましたが、いちいち、16桁を枠ごとにコピー・アンド・ペーストを繰り返さなくて良いのは、非常に快適です。

個別にアクティベーション解除と認証ができる

Studio Pro本体と、複数インストールされている音声データベースは個別に、認証と解除ができます。

音声データベースは、SynthesizerV Studio ProとSynthesizerV Basicの両方で利用でき、認証と解除はBasicでもStudio Proでも行うことができ反映されます。

AHSのマイページに、ユーザー登録をすると、ライセンスコードも一緒に表示がされるので、MacBookなど指認証がついているパソコンなら、ログイン画面の自動入力と合わせると、PC間のアクティベーション移動がすごく簡単になります。

値引き販売情報

年に数回の特別クーポン配布によるセールが行われたDLsiteから、ほとんど半額で購入来ました(Download版のみ)。

今回は、VOICEPEAK 商用可能 6ナレーターセットが10%OFFになっています。CeVIO AI 小春六花 トークスターターパックは20%OFFです。Synthesizer V Studio Proは、10%OFFです。

追加で「夏の音声ツールセール 特集ページ」が開設されました。DLsite内なら全てのページで特設や特集ページと同じセール価格になっています。つまり、DLsite内で更に安いページを探す必要がありません。

パッケージ版はメーカー直売のAHSストアーからユーザー登録者限定販売を購入する方が安価に入手できると思います。

クーポン情報などは、DLsiteのクーポン情報とお買い物についてに別記事にしました。文章読み上げ型音声合成ソフトのVOICEPEAK 商用可能 6ナレーターセットもお勧めです。

タイトル通り「商用ナレーターに使える音声合成ソフトを買うなら今しかない。と断言ぐらい安いセール情報(VOICEPEAKとCeVIO AI)」ホントにびっくりし、デモンストレーション動画付きで紹介記事まで書いてしまいました。