ついに、ドワンゴ社が開発し直販のみだった声変換ソフトSeiren Voice(公式サイト)が、NVIDIAのGPUがなくても動くV2として新登場し、DLSiteでの取り扱いを開始しました。

まだ、V2に対応した音声ライブラリーの取り扱い数は少ないですが、Seiren Voiceシリーズ(DLSite)で販売中です。

以前ブログ記事「Seiren Voiceという新しい音声合成ボイスチェンジャー」で紹介し、DLSiteでの取り扱いを待ち望んでいたのですが、ついにそのときが来ました。祝砲ドドーン♫状態です。

Seiren Voiceは、NVIDIAのGPUが搭載されていなければ再生できなかったですが、V2の登場によりGPU支援なしによるCPU変換に加えて、NVIDIAとAMDのGPUでも変換ができるようになりました。

Seiren Voiceの特徴

Seiren Voiceの最大の特徴は、文章読み上げ方式の音声合成機能もあるボイスチェンジャー系ソフトです。

完全なボイスチェンジャーとの違いは、LIVE配信などで使えるようなリアルタイム変換ではなく、「声の変換の綺麗さや変換後の対象となるその人の声”らしさ”の表現品質」が最大限向上するように作られている点です。

Seiren Voiceの仕組み

仕組みはリアルタイム変換のようにマイク入力の音声波形を直接修正するのではなく、一度、「音素」「音高」「発音タイミング」などに分解し、音声ライブラリーに含まれている声の質や特徴情報をつかい音声合成をしている点です。

プレリリースによると、「従来の文章(テキスト)入力からの音声合成方式では難しかった間の取り方や抑揚など、制作者の意図に沿った細かい表現が可能になります。」とあります。

従来のとは、VOICEPEAKなどのソフトのことです。

出力音声合成結果は、Seiren Voiceが2023年初夏時点でNo1

A.I.VOICEシリーズと同じ、録音データから音声ライブラリーという、音声データを作っているのですが、A.I.VOICE版と比べたとき、100人中99人がSeiren Voiceの方が自然で良い感じがすると満足できる音質です。

読上げ音声合成ソフトのA.I.VOICEシリーズが、従来の時々ベエフォベフォ音が混ざる、音声合成ソフトらしさを残さず、この品質で、発売していたら、VOICEPEAKやCeVIO AIが勝てなかった音質です。

ただし、テキストの文脈から文法を解析し、辞書に登録されている単語に対応した抑揚やイントネーションを取り出し対応させる技術が、テキスト読上げ音声合成ソフトの肝になっています。

このエンジン技術を丸々人間の声から直接解析し、入力テキストに反映させたうえで、変換先の音声の特徴に近づけるように処理しているため、直接比較はできませんが、最終出力の品質は、明らかにSeiren VoiceがNo1です。

声の高さや、抑揚などは調節することが可能

もちろん、Wave音声ファイルやマイクからの解析した、抑揚や声の高さなどを、そのままスライドさせるように、編集することもできます。

解析した声の高さや抑揚をそのまま反映させると、声変換にならないため、反映度合いを編集することもできます。

調節機能がないと男性の声の高さでしゃべる女性の声になってしまいます。

これでは、声変換になっていません。パラメーター調節で、低い声を標準に持って行ったり、歌声モードで、低くしゃべらせたりすることもできます。

訓練をしないと、ナレーションのように抑揚を押さえたフラットな声は、難しいです。抑揚を抑えることで、落ち着いた声にすることができます。逆に、変換先の声の特徴を最大限に合わせた抑揚に、強調することもできます。

読上げ合成ソフトで一番難しいのは間の取り方

読上げ合成ソフトで一番設定が難しいのは、間の取り方です。

文章読上げ型に不可能な再現の例を挙げると、「えぇーーとぉーあれぇあれぇ〜どれかなぁっわぁっアッァー」「いぃまぁぁすぅぐぅーーーーホチィッ!!ポッッチー」なんていう、途中でスピードや抑揚が変わっていく音声は合成できません。

Seiren Voiceでは、その辺の間の取り方やテンポなどを、マイクから入力した音声を解析して取り出し、調節していくため、ある程度綺麗に変換することができます。

ある程度というのは、波形直接編集のリアルタイム変換とちがい、あくまで音声ライブラリーに入っている、その声らしさに近づける処理があるためです。対応する音声サンプル情報がないと、再現はできません。

ナレーション用途には向いていない。

逆に、ナレーションのような、一定のリズムと抑揚で読み上げることは、訓練が必要になるため、マイク入力をつかうより、普通にテキストで入力した方がうまくいきます。

Seiren Voiceではテキストと標準的な音声辞書をつかった、マイク入力なしでの読み上げにも対応しています。

体験版について

この辺は、試してみるしかありません。製品を購入しなくても公式マニュアルが公開されています。

Seiren Voice(公式サイト)から、Seiren Voiceの体験版がダウンロードできます。V2は準備中ですが、ウォーターマークが入りますが、2週間の利用期限で全機能を試すことができます。

試してわかっていること

入力マイクは、収録スタジオにあるようなコンデンサーマイクは必要ありません。コロナ以前に発売された一般的なWindowsノートパソコンのマイクではうまくいきませんでした。

MacBookAir(M1)以上のマイク品質があれば前々問題ありません。

ほぼ業界標準とはいえコレを持っている人いるの?と思いますが、オーディオインターフェースが別途必要になりますが、ダイナミックマイク(SHURE / SM58)は、うまくいきます。

ちょっとマニアックすぎるかもしれませんが、テストしたことを書いておきます。

台本を作らないと、途中でカムため、MacBookの画面に台本を表示させた段階で、macOS標準のVoiceメモやPhoto Boothで録音し、Compressorでwavやmp3形式に変換し、読み上げたテキストをコピーしてファイル名を貼り付けiCloudでWindowsに転送しています。

Photo Boothで画面録画すると、自分の口元が映るため、3DCGなどのキャラクターなどに合わせやすくなります。とはいっても、最近は音声から自動的に口ぱくを作るため必要ないかもしれません。

アップ時など、映像制作時のカンプ作成時の仮当て映像として使うと、PiPで使うとかなり便利です。

逆に、DaVinci Resolveなどの編集ソフトで、目標の映像を写しながら、表現しやすい速度に数値倍率で調節し、合わせ混むのもうまくいきそうだなと、感じたのを覚えています。

そこまでするなら、モーションキャプチャーしながら。。。Blenderでスクリプトを組むことも可能かもしれません(僕にはできませんが)。

Seiren Voiceは、最近Unreal Engine5にどっぷりで色々テスト中ですが、3DCGで動かすキャラクター用としては、かなり強力なツールになりそうです。

Seiren Voice v2登場前の体験版で試し、これはいいけど、2万円は高いし、どうせ毎度毎度の買った後にDLSite取り扱い開始で、20%以上安く手に入るパターンだと、1年間DLSiteの取り扱いを待っていました。

Windows専用とあるので、macOS版も出るのか?と凄く期待しています。macOSにも強力なGPUがあり、ディープラーニングユニットも入っているし、何より消費電力が少なく全部一つですむため切実な願いとしてmacOS版が欲しい。

あくまで、以前2週間の体験版利用期間内に色々試行錯誤して試した範囲なので、v2できるかどうかはわかりませんが、工夫次第で色々できそうです。

Seiren Voiceシリーズ(DLSite)にmacOS版が登場したら、たぶん、15%OFFクーポンでも速攻で注文する勢いです。ただし。。。6月は駄目、現時点で緊縮財政かつ色々宿題がたまっているので余裕がないです。

もう趣味じゃなぃと若干苦痛になりつつある3DCGの成果を生かしつつ、テストケースとして公開できるかもしれません。業務利用ができないので、遊ぶなら「ずんだもん」がいいなぁ。

▲目次にもどる▲

Seiren VoiceとVoice Track Makerの違い

Seiren Voiceと同じ事ができるソフトの中で、一番近いソフトは、東芝デジタルソリューションズ株式会社が開発しているVoice Track Maker(公式)です。

Voice Track Makerは東芝なので、東芝です。。。いや、真面目というか業務用途です。

そもそも、Seiren Voiceは開発がドワンゴなので、「結月ゆかり」の声を出したいという、一人の開発者の企画から出発した企画です。東芝と似ていますがターゲットが違います。

Voice Track Makerはまだ音声合成っぽい音が残っていますが、Seiren Voiceの方が、自然な音声が出力されます。

Seiren Voiceとリアルタイムボイスチェンジャー(声変換)の違い

まず、Seiren Voiceはリアルタイム性を犠牲にした品質重視です。そしてドワンゴ社による企画なので、開発サイドが十分に、初音ミクなどの音声合成ソフト文化を理解しています。

ボイスチェンジャー(声変換)として、配信者に求められるリアルタイムな声変換が可能なソフトには、クリムゾンテクノロジー社によるVoidol2 for Windows スターターキットVol.2 結月ゆかり・紲星あかりがあります。

こちらは、音声品質よりも即応性を最優先にしています。

追記:Voidolシリーズ最新バージョン「Voidol3」を今年の夏に発売予定と発表しました(プレリリース2023年6月26日)。併せて6月28日(水)から6月30日(金)まで東京ビッグサイトにて開催される第1回 メタバース総合展 夏にてベータ版のデモンストレーションが展示実演中です。変換の精度や自由度がさらに向上しているそうです。

Seiren Voiceではとにかくリアルタイムに変換される即応性よりも、時間がかかってもGPU演算による出力品質を最優先にしていると、開発者が以前インタビュー記事で答えていました。

そのため、AI版の前のCevioプロジェクト系の「さとうささら」にある機械合成感が残っているA.I.VOICEの結月ゆかりとは、一線を越える高品質な音声になります。

前々から気になっていた理由は、出力される音声品質の高さがあり、今一番音声読上げソフトの中で自然な発音ができるVOICEPEAKよりも自然で高品質な音になります。

ただし、自分がマイクに吹き込んだ音声から解析された、抑揚情報が使われるため、訓練が必要になります。VOICEPEAKの出力音声を使ってSeiren Voiceで変換する使い方もあります。。。。

通常の読み上げ音声合成ソフトとの違い

VOICEPEAKをはじめとする一般的な文章読み上げ方式の音声合成ソフトでは、単語ごとに発音や抑揚などのイントネーションを指定する辞書を利用することで、テキストを読み上げています。

Seiren Voiceでは、音声辞書を利用する代わりに、マイクに吹き込まれた音声からイントネーションを解析し、テキストに関連付けてから、音声合成をしています。

そのため、音のつながりや、イントネーションに、細かい間などが上手に繋がります。

▲目次にもどる▲

Seiren Voiceはマイクがなくても利用ができる

Seiren Voiceはボイスチェンジャーに分類されるソフトですが、標準で音声合成辞書が含まれているため、手動入力したテキスト読み上げもできます。

東芝のVoice Track Makerでは、変換前テキストを手入力する必要がありましたが、Seiren VoiceではWindowsの音声入力を利用した、テキスト自動入力機能がついています。

ただし、Windows11の仕様変更で、一時的にテキストの音声自動入力ができない状態になっています(すぐ修正されると思います)。

Seiren Voice V1とV2の違い

今までのSeiren Voiceは、NVIDIAのGPUが搭載されていなければ再生できなかったですが、V2の登場によりGPU支援なしによるCPU変換に加えて、NVIDIAとAMDのGPUでも変換ができるようになりました。

つまりV1とV2の違いは

  • NVIDIAのGPU専用のSeiren VoiceはV1(従来品)
  • CPU単独に加えて、NVIDIA製GPUとAMD製のGPUの両対応をしたのがV2

となっています。

V1とV2では音声ライブラリーに互換性はありません。つまり、それぞれ必要になります。

V1はNVIDIAのGPUのみに最適化したV1に対して、V2は三つの処理エンジンによるコンパチブル設計になっているためだと思われます。

キャラクター毎の音声ライブラリーは、V1とV2は共通の音声を元に作成しているため音声品質は同等とのことです。ただし、V1とV2では変換したときの音声が微妙に違うそうです。

以前のSeiren VoiceではGPUの計算速度と共に、GPUメモリーの容量が一度に変換できる台詞の長さに影響していました。長すぎると、変な結果になったり動作が固まりました。

Seiren Voice 紲星あかり(公式)に公開されたサンプルを聞いてみると、V2よりもV1の方が、マイルドというか良いような気がします。

あえて、音声品質が違いますと書いてあるあたりは、やはり開発者として、AMDよりもNVIDIAの方が開発ツールが充実している点や、NVIDIAの音声解析に関わる独自機能をつかうとAMDやCPU処理との差が大きくなる事が見えているからかもしれません。

仮にV2にはV1のプログラムを入れてしまうと、CPUやGPUの種類によって結果が違う事になり、これは、利用者に受け入れられない可能性があります。

NVIDIA専用として販売されているV1なら、RTX4000シリーズの独自機能によりV2よりもNVIDIAのに特化したV1の方が良くなる可能性もあります。。。。

今NVIDIAはRTX4000シリーズしか新たなツールや技術資料を出していません。僕なら技術資料で新機能を見つけた時に採用を我慢できないです。

V1よりV2が性能が良くなる事を、マッケーターが許可しないかもしれませんが、NVIDIAの専用には未来が見えます。とはいっても、RTX4000シリーズに特化したら販売数が確保できないのでやれないようにも見えます。

新規購入であればV2で良いような気がしますが、V1とのコンプリートパックがあるあたりが、悩ましいですね。

v2登場前にSeiren Voiceを購入した方は、v2が入ったコンプリート版に自動アップデートされています。

コンプリート版という名前も意味ありげで、v1は、Ver.1ではなく、v1かもしれません。

▲目次にもどる▲

Seiren Voiceの音声ライブラリーについて

V1とV2の音声ライブラリーに互換性はなく、それぞれ専用の音声ライブラリーが必要になります。

V2は2023年6月に出たばかりなので、音声ライブラリーのラインナップは、A.I.VOICEシリーズの「結月ゆかり」と「紲星あかり」と「琴葉 茜・葵」のみになっています。

V1には、「ずんだもん」や、「東北イタコ」に「咲ちゃん」などが入っています。いずれV2でも出てくると思われます。

DLSiteではV1とV2がセットになった商品が販売されています。

V2登場前に定価19,800円でSeiren Voiceを購入した方は、自動的にV2の入ったコンプリート版にアップデートされるそうです。

基本的に、Seiren Voice本体の単体販売はなく、音声ライブラリーが有償販売部分となっています。

▲目次にもどる▲

出力音声の利用条件(規約)について

このソフトは、作品を作る事が目的になりそうなので、ガイドラインについて書いておきます。

基本的に、Seiren Voiceを使った出力音声の利用に関しては、A.I.VOICEシリーズとほぼ同じ条件になっています。商用利用可能版のVOICEPEAK 商用可能と違い、業務や商用といった業務目的での利用はできません。

Seiren Voiceが定める「個人利用」では、ソフトの中にライセンスが含まれているため追加費用なしで利用することができます。

個人利用の範囲ですが、アフィリエイト収入目的を含め、個人運営サイト内での利用、YouTubeなどのウエブへの映像作品や、映像コンテスへの応募作品でのトナレーションに使用は、個人利用として認められています。

基本的に、スポンサー契約を含め、有料イベントなどで、制作原価や開催費用を超える収入を得るには、別途、商用利用には個人商用利用や法人業務利用契約が必要になります。

キャラクターに関しては、キャラクター毎にガイドラインがあります。基本的に、キャラクターの人権や名誉を傷つける行為は禁止されています。

すこしわかりにくいですが、結月ゆかりの声を結月ゆかりとして利用する行為です。個人の利用範囲であれば、キャラクター名を利用できる権利です。

一方で、結月ゆかり等の声を使った作品内で、結月ゆかりの名前をクレジットなどで表示しなければいけないとという記述は見つかりませんでした。

個人サイトでも不特定多数に向けた音声素材としての配布や、第三者に依頼された音声を代わりに作成したり、素材集作品として販売する行為は禁止されています。

学校や部活動での利用は個人の利用範囲になります。ただし、教材としての利用するには法人業務契約が必要です。

色々複雑なので、詳しくはSeiren Voice公式サイトの利用規約や、キャラクターガイドラインを確認してみてください。

▲目次にもどる▲

DLSite購入情報

ホビー三昧Dの認識では、DLSiteで購入するのが一番安く購入することができます。なぜなら、音声合成ソフトを買うならDLSite!!という、認識が配信者の間でも浸透しているためです。

DLSiteは、独自キャンペーンに加えて、直販ショップキャンペーンとも連動する傾向があります。

キャンペーン割引価格にもクーポンが使えます。つまり2段階割引状態になります。

最近は少なくなりましたがメーカーによる20%OFFキャンペーンが始まったとき、DLSiteでもおなじ割引があり、おなじみの15%OFFクーポンを使うと、32%OFFになります。

こうなってくると、ユーザー優待価格よりも安くなる傾向があります。というより、僕自身が、優待価格で揃えた後に、後から気づいてDLSiteで買っとけば良かったと思っています。

DLSiteでは、ログインすることでクーポンを探さなくても自動的に適用され、注文画面のクーポン選択では、一番お得順に並んだクーポンから選択することができます。つまり、クーポンストレスフリーです。

色々書きましたが、DLSiteが一番お得に購入することができるので、販売リンクをのせておきます。V2専用リンクですが、V1+V2がセットになったコンプリートパックもページ内から選択することができます。

DLSiteでの販売ページ

最初に書いたとおり、DLSiteではログイン後に発行済みのすべてのクーポンが自動的に利用可能になるため、クーポンを探す必要がありません。

割引前のDLSiteでの通常価格は、公式直営サイト価格と同じ、スタンダードパックのV2が14,300円、コンプリートパック(v1&v2)が17,600円です。

スタンダードとコンプリートパックの差が3,300円なので、NVIDIAのRTX4000シリーズを持っているなら、コンプリートパックを買った方が、うれしい知らせが来るかもしれません。

ちなみに、DLSiteでの取り扱い前のSeiren Voiceは、公式直販サイトとなる、ドワンゴジェーピーストアとA.I.VOICE Official Shopのみの販売で、価格が19,800円でした。販売開始直後に10%OFF割引販売があったきり、一度も割引を見た記憶がありません。

Seiren Voiceは、音声品質が高いので、お好みの声があれば、間違いなく買いだと思います。

▲目次にもどる▲

DLSiteについて

正直初めてDLSiteを知ったとき、いかがわしいお店だと思いました。確かにPCソフト以外のタブを押すとエッチな店です。

Amazonと比べると、かなり不安になるため、初めてDLSiteを利用したときに書いた、「DLsiteのクーポン情報と購入時の注意点」に注意点を書きました。購入完了のE-Mailやクレジット決済による領収書などの確認ができないなど、気になった点を書いています。

DLSiteは1996年から営業しており、運営元は、ブックオフホールディングスグループです。さらに、社風として顧客とクリエイターに寄り添っているため、サポートはしっかりしています。安心して購入できます。

4月に登場していたら飛びつき買いを確実にしていたのですが、いろいろありすぎて現在、緊縮財政中です。

DLSiteの取り扱い開始の記念特価もなく、急ぐ必要を感じていませんが、僕自身がSeiren Voiceの購入タイミングをはかっています。「ホビー三昧Dが気がついた今開催中のセール情報」にて、DLSiteのクーポン情報や割引情報を書いています。

▲目次にもどる▲

DLSiteクーポン情報

DLSiteでは、ログインさえすればクーポンが利用することができるため、必要がないクーポン情報ですが、ログインしないと発行中のクーポンが表示されないため、下に、ホビー三昧D共通のDLSiteクーポン情報を自動転記しておきます。

連動元は、「ホビー三昧Dが気がついた今開催中のセール情報」になっており、こちらは、できる限り日々チェックしています。。。。

「DLsiteのクーポン情報と購入時の注意点」

DLsiteでは楽天などのようにクーポン発行ページを探し回って取得ボタンをクリックしなくても、ログインするだけで自動的にすべての発行済みクーポンが利用できるようになっています。

一般的なクーポンと違い、対象作品であれば、通常割引やキャンペーン割引商品に対してもクーポンが利用できます。

クーポンを利用すると、ポイント還元はなくなります。

全作品で単品で何度でも使える15%OFFクーポン(2024年4月23日 23:59まで)

DLsiteのクーポンは、通常割引価格との二段割引が可能です。全作品とは全商品のことで、このクーポンは単品から複数同時購入までカート内の全部に割引が適用されます。

このクーポンはDLsiteと、電子書籍のDLsite comopoの両方で使えます。

現在PCソフト最大88%OFFキャンペーンが開催中です。DLsite春のキャンペーンも最終局面に入りつつあります。DLsiteではゴールデンウィークに大キャンペーンはしない傾向にあります。休息期間に入ることなく1ヶ月に3回程度発行される普段の15%OFFが出てためゆっくり検討して大丈夫だと思います。

手持ちのクーポンに表示されないDLsiteのクーポンについて

DLsiteのマイページにクーポン数が3と表示されているのに、2つしか表示がされないことことがあります。見えないクーポンは、成人向け商品が対象のクーポンとなります。

「男性向け(R18)クーポンを表示」を押すことで全てのクーポンを確認することができます。

一般向けコンテンツで利用できるクーポンは表示されているものだけです。

成人向けコンテンツは「成人向入室確認」のポップアップで同意しない限り、商品は曇りガラスで見えない状態になっています。同意は時間をおいてブラウザの開き直しや再ログインをするとリセットされ再度確認画面が出ます。

さらにお得なクーポンを探し回った経験から、DLsiteではお得なクーポンを確実に購入者が使える仕組みなど、成人コンテンツに対する配慮を感じます。

DLsiteの安全性について

DLsiteは日本初の同人コンテンツのダウンロード販売サイトとして1996年から継続しており、ゲオホールディングスのグループ企業が運営しています。

会員数も790万を超えコンテンツを生み出すクリエイターの権利を守る為、「違法アップロードへの対策」として、2014年から累計でGoogleDMCA申請は413万件以上、違法アップロードサイトへの削除申請は292万件以上など、実際に様々な社会貢献をしている運営会社です。(DLsiteを運営するエイシス 違法アップロードへの対策活動より)

DLsiteでの安全性については、ホビー三昧Dとして、企業姿勢など総合的に判断して問題ないと考えています。