実用的な音声合成ソフト2本の紹介

割引情報と共に、2022年時点で、商品化されている音声読み上げ型音声合成ソフト、商用利用可6ナレーションセットのVOICEPEAK、「夏色花梨」や「小春六花」といったキャラクター系のCeVIO AI、そして「結月ゆかり」など古くからのキャラクターのA.I.VOICEについて説明します。

最初に、価格についてはDLsiteのリンクをのせておきます。VOICEPEAK 商用可能 6ナレーターセットが23,800円です。CeVIO AI 小春六花 トークスターターパックが16,918円で、追加の音声データーベースがCeVIO AI 夏色花梨 トークボイスが8,778円です。A.I.VOICE 結月ゆかりが、13,024円でここから10%OFFになっています。DLsiteではベースとなる割引価格から更に何度でも使える15%OFFクーポンなどを利用する事ができます。

VOICEPEAKとCeVIO AIは、割引をしなくても売れる状態になったため、毎年恒例だと思い込んでいたAHSの創業祭でも、2022年は割引がなく、ベース割引はあまりありません。

一番気になるのが、音質だと思います。

結論から書くと、VOICEPEAKの方が、音声品質が高く、次にCeVIO AI、そして最後にA.I.VOICEの順になっています(あくまで購入者からの感覚です)。

市販ソフトで最高品質を求めるのであればVOICEPEAKから出力した音声をSeiren Voice 結月ゆかりなどのNVIDIAなどのGPU処理が必要なSeiren Voiceで再合成する方法があります。

読み上げソフトではありませんが、Seiren Voiceが機械合成に聞こえないという点で一番音声品質が高いと思います。

「VOICEPEAK」は当初エンジンについてはアピールしていませんでしたが、「Synthesizer V」のDreamtonics社が開発した高品質なAI音声合成エンジン「Syllaflow」を搭載していると明記されています。

初音ミク系を初めとする歌声音声合成ソフトの中で今一番注目されている、Synthesizer V Studio Proは、個人の開発者が、所属する自社特許にとらわれず、学会や自己の研究成果などをどんどん取り込んで良くなっています。現時点で、一番自然な音声合成ソフトを作る人だと思います。

2023年8月3日まで有効VOICEPEAK 商用可能 6ナレーターセットを安く買う方法

現在8月3日23時59分まで有効な、DLSiteでは何度でも使える5品以上で20%OFFクーポンが配布中です。VOICEPEAK 商用可能 6ナレーターセットを安く買う方法とかぶるため、割引利用につついて最新の情報は、最大28%OFF、音声歌合成ソフト『桜乃そら』VOICEPEAK & Synthesizer Vに最新情報を掲載しています。
こちらには、割引により55円からの素材リンクと共に、商用利用可能版がほぼ20%OFF購入する方法が書かれています。

目次
  1. 新登場の商用利用可能 単体ボイス 男の子
  2. 最終的な商品の選び方
    1. 商用利用可のVOICEPEAKと不可のキャラクター版について
    2. VOICEPEAK 商用可能 ナレーター登場
    3. VOICEPEAKのSyllaflowエンジン
    4. 古くからのキャラクターは音声合成らしさを捨てにくい
    5. 新しいキャラクターは自然な声をそのまま使える
  3. 音声合成エンジンで音質が変わる
  4. Siriとの違い
  5. ここからは技術的なことを書いていきます。
  6. 音声合成ソフトとは
      1. 人工音声の作り方
      2. 人工音声は、2020年あたりから急速に進化
    1. 使用許可関係について
      1. 出力した人工音声の使用許可が重要
      2. 商用利用可能の凄さ
    2. 技術面での音声合成ソフトについて
      1. 少し技術的な説明
      2. 音声合成ソフトとは
      3. 音声データベースとは
      4. 言語辞書とは
  7. 商品紹介
    1. 念のためにトレンド紹介
      1. ソースネクストで安く買える読み上げソフト
      2. ドワンゴから発売されているボイスチェンジャー音声合成ソフト
  8. VOICEPEAK 商用可能 6ナレーターセットの紹介(デモンストレーション)
    1. クレジット表記なしでの商用利用が可能な珍しいソフト
    2. Macで使える数少ない音声合成読み上げソフト
      1. ちょっとした注意点
    3.  Raspberry Pi(Linux)とLinuxに対応
      1. Raspberry Pi対応の次は、プログラム利用対応?
      2. Raspberry Piの外部プログラム利用の解法は起爆剤?
    4. 使い所
    5. ライセンス認証について
    6. 2つライセンスをもつメリット
  9. CeVIO AI シリーズ の紹介(デモンストレーション)
    1. CeVIO AIはトークデータとトークエディタが必要
    2. CeVIO AIで出力される音声の使用許諾
  10. 共通の使い勝手
    1. 台詞の入力
    2. 音声出力のファイル形式
    3. 字幕にも使える台詞のテキストファイル
  11. 割引情報
    1. 全作品対象のカート内全品15%OFFクーポン(2024年5月15日 23:59まで)
    2. 全作品対象3商品以上同時購入で使える18%OFFクーポン(2024年5月15日 23:59まで)
    3. メーカー直売サイトとパッケージ購入について
    4. VOICEPEAK 商用可能 6ナレーターセット
    5. DLsiteについて

新登場の商用利用可能 単体ボイス 男の子

2023年1月13日に発売された、商用利用が可能なVOICEPEAKの新しい単体ボイス「男の子」のデモ動画を作りましたが「男の子」のレビューなどのページはまだなので、とりあえずこちらのページに貼っておきます。

前半は、感情パラメーターの違いを紹介し、途中から、逃げちゃだめだのおふざけが入り、最後は、予告編を再現したサンプルになっています。「つづく」が表示された後、BGMが一瞬大きめの音で入り始めます。

若干、「幸せ」「楽しみ」「怒り」のパラメーターで劇的に差が出ませんが、調節をしていくと、感情を込めたように聞こえてきます。

やっぱり、市販のテキスト読み上げ型音声合成ソフトでは、VOICEPEAKが一番、音が良いと思います。そして、商用利用可能なナレーターセットは、使い勝手が良いと思います。

AHS公式ページの男の子サンプル音声を聞いたとき、エヴァンゲリオンの碇シンジ君の声に近い気がしました。

購入して試して見ました。碇シンジ君の「逃げちゃダメ」ですが、全然似ていません。声優の緒方恵美さんのプロフィールページにある、Voice Sampleを聞くと、声優さんにはかなわないなと感じます。

ちなみに、男の子の声は女性4と同じ声優の黒崎しおりさんです。また、「女性4」「男性4(声優:新恋)」「男の子」はそれぞれ単体製品として11,980円で購入できます。

動画などの制作でナレーターとして使い始めると6ナレーターセットが欲しくなると思います。最初から、DLsiteからVOICEPEAK 商用可能 6ナレーターセットを購入し、ユーザー限定の「6ナレユーザー優待版」として5,980(税込)で購入するのが一番金額的に安くなると思います(AHS製品登録者ではなく、6ナレーターセット購入者限定です)。

流れとしては、DLsiteで購入後に表示されるシリアル番号をコピーして、販売元の株式会社AHSにあるマイページでユーザー登録をすると、VOICEPEAKの本体ダウンロードボタンの下に優待購入ボタンが表示されます。

ちなみに、商用不可のキャラクター単体ボイスも、同じVOICEPEAKで利用することができます。

キャラクター版との同時利用は6ナレーターセットのVOICEPEAKを最新版にアップデートする必要があります。

Ver.1.0.1から、Ver.1.2.1への直接更新はできず、一度アンインストールしてからセットアップする必要があります(セットアップファイルはAHSのマイページからダウンロードできます)。

あと今までCeVio AI限定だった小春六花が2023年7月13日についにVOICEPEAK 小春六花で登場しました(商用には別契約が必要です)。

割引情報まで読み飛ばす

最終的な商品の選び方

少ない予算で、商用利用を考えているのであれば、現時点で「VOICEPEAK 商用可能 6ナレーターセット」の一択です。これ以外の製品は、別途使用権の契約が必要になります。

一般店頭では見かけませんが、東芝やサーバーエージェントにNHK放送技術研究所などの音声合成技術の方が、クリアな音声になっています。違いは、つなぎ合わせる元となるデータや録音の品質です。

決して、市販品の品質が悪いわけではなく、オリジナルのマスター音源は同等以上の品質があるけれど、販売用は品質を落としているような感じです。これは、マスター音源から作成される音楽CDと同じです。

あくまで、コンシューマ価格で、使えるというメリットであり、最高品質の合成音声品質が手に入るわけではありません。

あとは、自分の好みの音声かどうかで選べば良いと思います。

参考までに、実際にVOICEPEAKとCeVIO AIとA.I.VOICEを所持している僕の見え方を紹介します。

割引情報まで読み飛ばす

商用利用可のVOICEPEAKと不可のキャラクター版について

今まで商用利用可能バージョンだけだったVOICEPEAKも、2023年1月13日(2022年12月15日発売延期)から「VOICEPEAK 彩澄しゅお」などのキャラクター音声データーベースが発売されました。

ナレーションで利用するなら、6ナレーションセットが最良だと思います。権利関係などの契約関係で、商用利用可能バージョンのラインナップは、これ以上増えないような気がします。

今後は、タレントや劇団事務所が、本人と役柄に応じたデータなどを作成した合成音声契約と言った形で、音声合成であっても出演契約のような形になっていくと思います。

一方で、今後、キャラクター音声はどんどん増えていきそうな気がします。

VOICEPEAK 商用可能 ナレーター登場

商用利用可能バージョンの音声データベースはこれ以上増えないと思っていましたが、1月13日に「VOICEPEAK 商用可能 ナレーター」 として、AHS公式サイト専売のダウンロード版として単体販売版が登場しました。

ラインアップは「男性4」、「女性4」、「男の子」です。「VOICEPEAK 商用可能 ナレーター 製品概要(メーカー販売サイト)」から購入できます。

単体価格は、11,980(税込)で、6話者が入った商用利用可能VOICEPEAKを所持しておりメーカーにライセンス登録をしている方は、「6ナレユーザー優待版」として5,980(税込)で、登録完了後のマイページ内から購入が可能です。

新たな商用利用可能なナレーター音源ですが、1月15日時点でDLsiteやAmazonでの取り扱いはありません。

ただ、DLsiteで最大で付近となる30%(20%OFF+18%OFF)でも7,858円なので、DLsiteでVOICEPEAK 商用可能 6ナレーターセットを割引クーポン(DLsiteにログインすると自動入手できます)を使い購入して、メーカー登録をして購入するのが一番お得だと思います。

VOICEPEAKのSyllaflowエンジン

音の傾向から行くと、「VOICEPEAK」は、「Synthesizer V」のDreamtonics社が開発した高品質なAI音声合成エンジン「Syllaflow」を搭載していると公式サイトに書かれており、一番自然な音声出力が得られます。

従来の波形を切り貼りするダイフォン合成技術は、どうしてもつなぎ合わせる関係で、ブザーというかベヴォというような不自然な音が混ざりやすくなっていました。

CeVIO AI系やVOICEPEAKは、1930年代のフォルマントボコーダーの延長上にある、声道の形と密接な関係を持つ周波数情報に基づく音声情報(フォルマント)から、隠れマルコフモデル(HMM)という統計に基づくパラメーターを使って合成する、完全計算系の処理になっています。

そのため、音声データベースのサイズも小さく、つなぎ目という概念がありません。その代わり、どうしても音がこもったような、感じになります。90年代の長距離電話や携帯電話の音声のような感じです。

古い技術ですが、かつては現実的ではなかったコンピューターを遙かに凌ぐ演算能力により、フォルマントと声帯のパラメーターをより自然な形に近づけることができました。

その後の多くの音声合成技術研究のによる解析技術や合成計算アルゴリズムががキモとなっており、その蓄積した研究成果を元に取り込んでいるSyllaflowエンジンは、その精度が高くなっています。

このように、膨大な波形データではなく、少しの音声情報を元に計算する数式の塊のようなアルゴリズムみたいな物なので、Syllaflowでは、RaspberryPi4に対応したSDKも提供しています(当然ビジネスがからんでいます)。

古くからのキャラクターは音声合成らしさを捨てにくい

古くからの「結月ゆかり(A.I.VOICE)」や、「さとうささら(CeVIO AI)」と言ったキャラクターは、いかにも音声合成らしい声質が特徴になっています。そのため、音作りのバランスにより、音声合成らしさが残っています。

開発者インタビューにもそのことが書かれており、実際、結月ゆかり(A.I.VOICE)を購入して、所々に入るブザーのような音声合成らしさが気になり、ガッカリしました(約2万円をネタのために使って失敗しました4千円台でセール購入できるかんたん!AITalk5 5話者パックで良かったかもしれません)。

A.I.VOICEの結月ゆかりについては、株式会社AIのAITalk5エンジン機能をフルに使わず、ダイフォン音声合成という従来型の音素のつなぎ合わせをつかい、フォルマント系やHMM系の統計に持つとづく演算エンジンを使い切っていないようです。

ダイフォン音声合成の元となる波形の音声品質は上がり、部分分では生声のような感じがしますが、音がなめらかにつながらず、ブザー的な変なノイズが入ります。

「結月ゆかり」の「exVOICE」シリーズは、声優さんの録音のため自然になっています。音声合成よりしなくても良かった気もします。

新しいキャラクターは自然な声をそのまま使える

2022年12月15日からVOICEPAKも、キャラクター系の音声データベースを発売します。VOICEPEAKや、CeVIO AIの小春六花系は、新たなキャラクターとして登場したため、音声合成らしい感じを作らなくて良いため、自然な音声になっています。

音声合成エンジンで音質が変わる

読み上げ型ではありませんが、音声合成エンジンで音はガラッと変わります。そのことは、A.I.VOICEの「結月ゆかり」のマスター音源から音声データベースが作成された、「Seiren Voice」という、ボイスチェンジャーソフトではっきり分かります。

「Seiren Voice」はリアルタイム性よりも、音質を重視した形になっており、AI解析をNVIDIAのCUDAを使って解析しています。一番音質が良くなっています。

そのため、凄く自然な音声を出力しています。

Siriとの違い

Siriの英語発音は素晴らしいですが、日本語の読み上げはまだまだだと思います。その点、VOICEPEAKは、発音や音質が良く、8000文字以上の文章であっても、セリフボックスへコピーした直後に再生ボタンをクリックしても待たずに読み上げてくれます。

さらに、Siriと違い、長文の時に途中で停止したり、読み上げ開始の場所まで戻って再度テキスト選択をしなくて済むので非常に快適です。

ここからは技術的なことを書いていきます。

記事が長くなっているため、目次の下にある技術的なことよりも、実際に使い勝手や音声品質が知りたい方は、デモンストレーション動画付きの商品紹介にて読み飛ばすことができます。一番下に書かれた割引情報などは、クーポン情報にて読み飛ばすことができます。

音声合成ソフトとは

市販されているソフトは、キーボードで打ち込んだテキストなどを読み上げる物と、電子楽器用楽譜であるMIDI音程で歌い上げる初音ミクなどの2種類があります。

以前は、ロボットボイスというかいかにも音声合成という発声でしたが、2020年頃からその音質は飛躍的に進化しました。

今回紹介する音声合成ソフトとは、入力したテキストデータを発音する人工音声を作り出すソフトです。

ソフトごとの特徴には、大きく分けて2つ、人工音声の声質を提供した音声を使う権利と、人工音声の出力品質など技術的なものがあります。

最初に、出力した音声の使用許可について書き、その次に、音声合成技術について説明します。

人工音声の作り方

まず最初に簡単に説明すると、入力した文章を元に、基本の音声合成ソフトに内蔵された言語辞書によって、読み上げの発声指示が作られ、音声データベースの特徴をもとに、人工合成波形が計算されます。

個々の人間の発声波形の特徴を使って、人工音声を作り出すソフトです。音声合成で出力されています。

人工音声は、2020年あたりから急速に進化

2020年あたりから、急速に、従来の人工合成音声っぽさがなくなり、自然な発音になりました。

声の特徴となる、人工合成音声を作り出すための音声データベースには、プロの声優さんやアナウンサーなどの、録音データが使われているため、ほとんどの素人によるナレーション録音より、はるかに自然な声が出力されます。

使用許可関係について

すでに、無名の声優さんを使うケースであれば人工音声の方が便利なケースがあります。特にアナウンサーやナレーションなど、職業訓練により出すことができる感情を抑えた声は、人工音声が得意とするところです。

このため、自分の声を他の人に自由に無償で使って欲しくない、お金を払ってくださいという、自然な感情がより高くなりました。

ここまで音声合成技術が進むと、自分の職がなくなるのではないか、という危機感が生まれるレベルになってきています。

出力した人工音声の使用許可が重要

人工音声といえば、一番誰もが使ったことがありそうな例として、Google翻訳サービスで利用できる入力文章や翻訳結果を読み上げがあります。AppleのSiriやAmazon端末のAlexaなどの返答なども人工音声で出力されています。

多くのサービスでは発声した音声データを録音し、ナレーションやアナウンスとして使うことが禁止されています。

音声合成ソフトでは、自分が発声させたい文章から作り出した、人工音声を、利用規約に沿っていれば、作品などで使うことができるものです。

商用利用可能の凄さ

VOICEPEAKに商用利用可能とあるのは、長い間、事業やある一定以上の利益を得るために作成した音声を利用するには、別途50万円以上の商用利用ライセンスが必要でした。これが、買い切りの商品内に含まれているのが最大の特徴です。

DLsiteのセール価格でも3万5千円するA.I.VOICE アナウンス部 4話者セットは、名前から見て、商用利用できそうな感じがしますが、A.I.VOICEのライセンスにあるユースケースを見ると、個人の範囲であっても、個人商用ライセンスや法人ライセンスが求められる項目が複数あります。これが今までの当たり前でした。

VOICEPEAKで許可される商用利用には、店内アナウンスや、留守番電話の応答メッセージ、プロモーションビデオのナレーションなど、よく使う利用目的でも安心して使えます。

技術面での音声合成ソフトについて

今回紹介する音声合成ソフトとは、入力したテキストデータを発音する人工音声を作り出すソフトです。

人工音声は、AppleのSiriやAmazon端末のAlexaなどの返答にも使われています。

少し技術的な説明

音声合成の仕組みは、発音させたい文章と任意のイントネーションなどの指示に、作り出したい人の「発音の癖や特徴」を記録した音声データベースと、発音や読み上げのつながりなどを記録した辞書の2つを使い、計算によって得られた人工音声波形として出力しています。

音声合成ソフトとは

今の音声合成技術は、声帯や肺や体の共鳴などをシミュレーションして作り出す仕組みではありません。

あくまで発声した声の波形から人工音声を作っているため、怒った声、機嫌がいい声、疑り深い声など、それぞれの声ごとに、データが必要になっています。

同じような音声合成ソフトですが、全て同じではなく、同じ人の声を、声の調子を変えて録音し、感情パラメーターなどで、自然な声に作り上げる技術と、文脈からなるべく使用者の手作業による修正を加えずに、一発で欲しい声を作り出す性能に差が出てきます。

感情パラメーターなど、音声データベース内には、複数の声の調子が含まれています。同じ人の声なので、うまくパラメーターを調節して、自然な声に作り出すのは、音声合成ソフトごとの性能で左右されます。

即応性を高めるために、それぞれの音声合成ソフトに最適化された、音声データベースが提供されています。

音声データベースとは

音声データベースには、人工音声で作りたい声質を持った人の音声録音波形から、その声質の特徴を抽出して、加工しやすい状態で作られています。

色々な人の録音データといったビッグデータを元に人工的な人間の声を作るケースもありますが、多くは作り出したい声質を持った人の声を、スタジオ録音によりサンプル音源として収集し解析することで、声の特徴を抽出しています。

そのため、目標とした声と、録音品質などが、音声データベースの肝になっています。

言語辞書とは

発音や読み上げのつながりなどを記録した言語辞書は、漢字やスペルのふりがなやイントネーションといった、自然に読み上げるのに必要な、基本的な読み方のルールが入っています。

辞書が洗練され膨大なほど、入力時の修正作業をしなくても、さまざまな文章を自然に読み上げることができるようになります。

商品紹介

基本的にホビー三昧Dでは、自分の使っているソフトしか紹介しませんので、CeVIO AIと、VOICEPEAKの2種類に加えて、A.I.VOICEを紹介します。

念のためにトレンド紹介

一応、トレンドを紹介しておきます。

ソースネクストで安く買える読み上げソフト

ソースネクストから最新のAITalk5を搭載した「かんたん!AITalk5 5話者パック(割引販売4月18日まで)」を4,980円で販売しています。

商品ページででも音声を確認することができますが、AITalk5のスペックが抑えられた22KHz 16bit PCM出力なので自然さは良くなりましたが、作品として使うには、音質が良くありません。

定価16,500円なのでVOICEPEAKの標準価格23,800円と比較すると差が小さいですが、ソースネクストは頻繁にセールがあり、セール価格(予想3,000円から5,000円)が妥当価格のような感じがします。

僕は前バージョンの「かんたんAITalk35話者」プラスに入っていた関西弁バージョンを好んで文章読み上げに使っていましたが一度も音声ファイルを作ったことがありません。

使用目的が読み上げだけであれば「かんたん!AITalk5 5話者パック」は十分役立ちます。

ドワンゴから発売されているボイスチェンジャー音声合成ソフト

ドワンゴが発売している「Seiren Voice」は、自分の声を解析して他の声データで音声合成する、ボイスチェンジャーですが、音声合成としての品質は多分業界一だと思います。

NVIDIAのGPUに搭載されているCUDAユニットを利用して、マイクなどの入力音声を解析する事により、自然な音声が生成されています。

欠点としては、自分の声を話さないため、訓練が必要なナレーション向きではないように思います。

VOICEPEAK 商用可能 6ナレーターセットの紹介(デモンストレーション)

音声合成ソフトは、実際に出力される状態を見るのが一番早いので、動画を作りました。プレビュー音声ではなく、最終出力のWAVE(16bit 48kHz)音声をキャプチャ動画に差し替えて出力しています。

この動画は、VOICEPEAKの購入してからそれほど期間がたっていない頃に作った、デモ動画です。

ほとんどパラメーターをいじらなくても、人の声と見分けが付かないレベルの音声合成となっています。

クレジット表記なしでの商用利用が可能な珍しいソフト

CeVIO AIを含む、ほとんどの音声合成ソフトは、個人ブログであれば声出演のクレジットを入れることで作品を公開したり色々使えますが、事業者が使うには高額な使用権が必要な時代が長く続きました。

しかし2022年2月に、AHSからVOICEPEAK 商用可能の6話者入りの製品は、商用可能と書いてあるだけあり、クレジット表記なしで使うことができるソフトが発売されました。

何度も読んで確認しましたが、AHS社の『「VOICEPEAK 商用可能 6ナレーターセット」エンドユーザー使用許諾契約書』にある通り、かなり使い勝手がいいソフトになっています。

ただし、音声素材として依頼された音声出力データを、そのまま依頼主に渡したり、音声素材集として出力音声を販売する行為は禁止されています。

Macで使える数少ない音声合成読み上げソフト

膝にのせてどこでも文章を書くことができるMacBook Airが動くMacOSでは、色々なソフトが使えるWindowsと違い選択肢が少ない状態でした。

VOICEPEAKは、Windowsの他にMacOSとLinuxにも対応しています。

「VOICEPEAK」は、「Synthesizer V」のDreamtonics社が開発した高品質なAI音声合成エンジン「Syllaflow」を搭載していると公式サイトに書かれていました。

ちょっとした注意点

動作が軽いといっても、入力画面で文章を練り始めると、時々強制終了します。入力中のテキストは全て消えます。

動画編集ソフトへの移動用に、字幕テキストと音声を分けて出力することはできますが、テキストだけを出力することができません。

そのため、VOICEPEAKの中で文章を校正してしまうと、校正した文章をコピーして戻すのが大変になります。とはいっても、セリフ単位で、テキストエディタなどからコピーして戻したりすればいいので、全体の文章校正には使いにくいだけです。

 Raspberry Pi(Linux)とLinuxに対応

公式サイトのマイページへ製品登録をすると、通常のLinux向けの、「VOICEPEAKダウンローダー for Linux」のほかに、Linux(Raspberry Pi)用VOICEPEAKの最新のインストールプログラムがダウンロードできます。

説明には「「Raspberry Pi」でご利用いただけます。」とあり、動作環境は、「Raspberry Pi 4」で、対応OSは「Raspberry Pi OS (64-bit)」と書かれています。

Raspberry Pi対応の次は、プログラム利用対応?

プログラムから利用するAPIなどの資料はありませんが、自作プログラムからの利用ができたら、応用範囲がものすごく広がりそうな気がします。

これは僕の感ですが、半年ぐらいするとVOICEPEAKを外部のプログラムから利用するための、開発マニュアルが公開されそうな気がします。

安価なマイコンボードのRaspberry Piは、組み込み用途にも使え、VOICEPEAKの音声合成と合わせると、簡単に500万円クラスの、防災放送システムなども開発できてしまいそうな気がします。

見守りシステムで、AIによる会話プログラムなどと組み合わせたら、無人システムなのに遠隔地で人が監視しているように見えるかもしれません。。。いや、あの合成音声は、知らなければ合成音声と聞き分けれる人は少ないと思う。

普通に、MP3やWaveデータを転送すればよさそうな気もしますが、遠隔ロボットへの応用など、これは、もはや、革新的すぎる感じがします。と、

まだ、外部プログラムから利用する方法が提供されていませんが、これ、商用利用可能のライセンスですよね?後から、やっぱり商用利用では、別契約でライセンス買ってください。なんてなりそうな気もします。

1ライセンスで利用できるのは1台です。Raspberry Piで、外部プログラムから利用できたら、複数のライセンスが欲しいと思う人増えそうな気がします。

Raspberry Piの外部プログラム利用の解法は起爆剤?

4月30日までの、VOICEPEAKの新発売特別価格が終わり、2万3800円になった時の起爆剤として、外部プログラムからの直接制御が、仕込まれているのかもしれません。。。

いや、僕なら、新発売特別価格で一定数のユーザーを増やし、5月から8月にかけて、Raspberry Piユーザーが面白いプログラムを作り、YouTubeで公開が始まりそうな気がします。

9月ぐらいには、色々なところから、変わったツールが出てきて、中小企業や企業間での利用が広がり、すごくヒットしそうな気がします。

でも、なんとなく、CeVIO AIのトークエディタも外部プログラムからの連動制御関係ができるようなので、アピールしていないだけで、今でもできるのかもしれません。

いや、Raspberry Pi対応は、つい先ほど公開されたものなのかもしれません。2つライセンス買っといてよかった。しばらく遊べそうです。

使い所

VOICEPEAKでは、二人の話者を使って会話風に表現する事には、向いていません。その代わり、ナレーション音声としてはピタッとはまり使いやすい特徴があります。

実際に、店舗などでのアナウンスや、同好会や会社の紹介動画などのナレーションを作製する方は、持っていて損のない一本だと思います。

普段は、文章の読み上げツールとして活用できます。6話者とパラメーターで色々な声で読み上げられるので、一種類の音声だけで読み上げるより、ミスが見つけやすいです。

ライセンス認証について

最初に僕は、WindowsとMac用の2本ライセンスを購入するつもりでいました。CeVIO AIシリーズは、ライセンス移動となる、2回目の認証は24時間以上開けなければいけない制約があり同じだと思ったのです。

しかしVOICEPEAKは、認証と登録の解除にはネット接続が必要ですが、ライセンスの認証と解除1つのライセンスで、2台のパソコンの往来が簡単にできたのです。おかげで、2本目を買わずにすみました。

利用するパソコンの両方にインストールしておけば、認証を解除すると、認証画面が表示されるようになるのでそのときに、ライセンスコードを貼り付けるだけで自動的に完了します。

しかも、コピー状態で認証画面が開くと自動的にライセンスコードが入力された状態で、認証ボタンを押すだけで完了します。

AHSユーザー登録のマイページに製品登録しておけば、登録一覧にシリアルコードがコピーできるため、テキストファイルなどでシリアルコードを記録しておかなくても、簡単に移動ができてしまいます。

2つライセンスをもつメリット

1つで済んだと書いておきながら、結局25%クーポンをつかって2本目を購入しました。おかげでDLsiteの注文決済が遅れるという体験ができました。。。は、置いておいて、なぜ、2つ買ったかを書きます。

普段の文章読み上げで、使い勝手にすっかり慣れてしまい、動画編集用のパソコン間のライセンス移動が面倒になりました。

CeVIO AIがMac対応をすれば話が変わってきますが、現段階で十分すぎる読み上げなので、ずっと使えるかなと思い、結局、当初の予定通り2本目を買ってしまいました。

CeVIO AI シリーズ の紹介(デモンストレーション)

CeVIO AIは、どうやら実況動画向けを意識して作られているソフトで、複数の音声データベースを組み合わせることで、会話風の音声を作ることが簡単にできます。

説明するより見る方が早いので、以前遊びで作った動画を紹介します。内容的には気にしないでください。

いかがですか?感情パラメーターなど軽く編集はしていますが、単語の読み方の登録以外は、ほとんど調節なしで自然な会話になっているのが、CeVIO AIの特徴です。

もう、この動画だけで紹介は十分なような気がします。

台詞が重ねられないと動画内でしゃべっていますが、マニュアルにも『オプションの「トーク設定」の「マルチトラック自動整列」をオフにすると、別トラックのセリフと重ねられます。』あります。

作品として、音場の設定などを凝りはじめると、色々やりたくなりますが、ラジオ局のようなマイクを中央に置いたスタジオ風の音声であれば、編集ソフトとの往来をせず、こちらで全部作った方がお手軽です。

CeVIO AIはトークデータとトークエディタが必要

CeVIO AIを使うにはCeVIO AI トークエディタと、専用の音声データーベースとなるCeVIO AI 小春六花 トークボイスといった音声データベースを購入する必要があります。

最近は店頭で見かけませんがCeVIO CS7はCeVIO AIより前の製品です。

初めて購入する場合はスターターパックと名前がついている、CeVIO AI 小春六花 トークスターターパックを購入すると安く手に入れることができます。スターターパックには、トークエディタとトークボイスの両方入っています。

話者を追加する場合は、CeVIO AI 弦巻マキ トークボイスのような単体のトークボイスを購入することで追加できる仕組みになっています。

CeVIO AIで出力される音声の使用許諾

CeVIOに音声データやキャラクタに関して利用規約(CeVIO)に書かれています。個人のアフェリエイト活動など許可されている項目以外では、基本的に作品で制作費以上の利益をあげることは禁止されています。

ここが、商用利用可能と商品名に入っているVOICEPEAKとの大きな違いです。

CeVIO AIでも個人で動画制作を使うなら声の出演をクレジット表記に入れておくことで普通に使えるので、それほど気にしなくてもいいと思います。

共通の使い勝手

どちらのソフトも、使い勝手はほとんど変わりません。そのため、使い勝手については、共通の使い勝手としてまとめることにしました。

台詞の入力

台詞の入力は、テキストエディタで書いたものを、コピーアンドペーストで読み込んだり、テキストファイルの読み込みに対応しています。

通常は出力するものですが、テキスト形式の字幕ファイルのTips SRT(Sub Rip Text)の読み込みにも対応しています。SRTはただのテキストファイルで、フォーマットは下記の通りです。

連番
HH:MM:SS:ms --> HH:MM:SS:ms (開始時間 -> 終了時間)
テキスト

CeVIO AIの方が、青空文庫のファイルも読み込むことができるなど、充実していますが、基本テキストファイルとSRTで、不満なく利用することができます。

音声出力のファイル形式

CeVIO AIもVOICEPEAKも、音声出力は台詞ごとにファイルを分けたデータと、通しで一つのファイルとして出力することができます。

出力音声ファイルはいずれも16bitのWAVEオーディオ形式で、CeVIO AIは48kHz固定ですが、VOICEPEAKは、41.1kHz、48kHz、96kHzから選択できます。

字幕にも使える台詞のテキストファイル

台詞はテキストファイルで出力されるので、字幕も簡単につけることができます。もちろん、SRTファイルの出力にも対応しています。

これがあると、字幕文章を変更する場合でも、下地があるため、作業がすごく楽ちんです。

割引情報

基本的に、DLsiteから購入するのが一番安いケースが多いです。それは、DLsiteでは通常の割引価格に上乗せする形で、頻繁に発行されている15%OFFクーポンなどを利用できるからです。

2023年7月31日まで有効VOICEPEAK 商用可能 6ナレーターセットを安く買う方法

現在7月31日23時59分まで有効な、DLSiteでは何度でも使える5品以上で20%OFFクーポンが配布中です。VOICEPEAK 商用可能 6ナレーターセットを安く買う方法とかぶるため、割引利用につついて最新の情報は、最大28%OFF、音声歌合成ソフト『桜乃そら』VOICEPEAK & Synthesizer Vに最新情報を掲載しています。
こちらには、割引により55円からの素材リンクがあり、商用利用可能版がほぼ20%OFF購入する方法が書かれてます。

DLsiteでは楽天などのようにクーポン発行ページを探し回って取得ボタンをクリックしなくても、ログインするだけで自動的にすべての発行済みクーポンが利用できるようになっています。

一般的なクーポンと違い、対象作品であれば、通常割引やキャンペーン割引商品に対してもクーポンが利用できます。

クーポンを利用すると、ポイント還元はなくなります。

DLsiteさんの注文画面では、一番お得な順にクーポンと適用金額の割引額が表示されます。還元クーポン数や割引金額などの内訳も表示されているため、確認することができます。

2024年5月1日時点で、クレジットカード決済に使えるブランド(カードに表示されるマーク)はJCBだけになっています(2024年5月1日時点)。

DLsiteさんでは、全額ポイント決済も可能です。クーポン値引きよりもポイント還元率が高い商品では、後々の事を考えたとき、クーポンを使わない方が便利になるケースもあるかもしれません。

全作品対象のカート内全品15%OFFクーポン(2024年5月15日 23:59まで)

正式名「【1作品から利用可】全作品で使える15%OFFクーポン【何回でも利用可】」は、キャンペーン割引特価からカート内の全商品を15%割り引くクーポンです。例えば50%OFF特別割引商品に使うと最終的に57.5%OFFになります。

毎月3回程度発行されるDLsiteの定番クーポンで、連続的に発行されることも多く前回期限の1秒後に出ることも多いです。通常は1日から3日後に発行され、1週間ほど間隔が開く場合もあります。

時々同時に3作品以上で使える18%OFFクーポンや、ごくまれに5作品以上で使える20%OFFクーポンが出ることがあります。

全作品対象3商品以上同時購入で使える18%OFFクーポン(2024年5月15日 23:59まで)

1作品以上で使える15%OFFクーポンの3作品以上版です。カート内に3作品以上入っていれば、キャンペーン割引特価商品を含めて、カート内の全商品が18%OFFになります。

注意点として、PCソフトや同人誌を販売するDLsiteと、商用電子書籍を取り扱うDLsite comipoのカートは別になるため同時には使えません。過去に僕は、音声合成ソフトと組み合わせる目的で商業作品の電子書籍を決めてから、使えない事に気づきがっかりしました。ご注意ください。

18%OFFクーポンは、15%OFFクーポンと違いレアなクーポンです。連続して前クーポンの終了1秒後に発行されることも多いのですが、一度発行されなくなると、1ヶ月以上ご無沙汰となる休眠期間が長いクーポンです。

メーカー直売サイトとパッケージ購入について

VOICEPEAK商用利用可能6ナレーターセットのパッケージを購入するには、Amazonか、発売元のAHSさんが運営する、AHSストアから購入するのが安いです。

VOICEPEAK 商用可能 6ナレーターセット

「VOICEPEAK 商用利用可能 6ナレーターセット」は、これまでの音声合成業界では別途数十万円相当の個別契約が必要な商用利用ライセンスが含まれているにもかかわらず、通常価格29,800円という破格の値段で登場したソフトです。

ビデオサロンといった映像専門誌で紹介され、動画制作会社などでもスタッフの口コミや知名度が高く普通に売れるため、割引セールを見かけることは少なくなりました。

少しでも安く手に入れるなら、クーポン利用でDLsiteのVOICEPEAK 商用可能 6ナレーターセット ダウンロード版が、一番安く購入できます。

ダウンロード版ですがアップデートが多いので、ダウンロード購入したシリアルコードをまとめて入れておくパッケージとしての使い道以外でメリットを感じません(僕はなくならないと気にいって使ってます)。

VOICEPEAKは、ナレーションやアナウンス用途であれば人間が話している声と区別が付かないレベルで、生声感という点においては、一般販売されている最新世代の読み上げ型音声合成ソフト(A.I.VOICE、CeVIO AI)と比べたとき一番品質が高と感じています。

もう一つ特徴的なのが、販売を全部AHS社に完全委託することで、開発者が売るためのマーケティング戦略を意識することなく常に最新の音声出力改善をアップデートで投入している点です。

どういうことかというと、普通ならVOICEPEAK2という形でアップグレードパッケージを販売するような大改善を発売以来ずっと無償で続けています(2023年8月15日時点でVer.1.2.4、音声データベースは100から103にアップ)。

VOICEPEAKと同じ開発者によるSynthesizer Vと同様に、PC間のライセンス移動に時間的な縛りもなく簡単にできるのも大きな特徴です。この点は、普段使いでも、作品作りでも活用できすごく便利です。

実際に普段は使わないWAVES Vocal RiderやPlaylist Riderといったミキシングボリュームの自動調節などをセットアップした、イベント会場専用パソコンと、普段普段のパソコンのライセンス移動を頻繁に行っています。

ライセンスサーバーにさえつながれば、2本持ちをしなくても、会場の状況に応じた突発対応ができます。

もちろん、商用利用可能のため、有料イベントでも安心して利用しています。

商用利用が可能かどうかはとても重要なので、最初にVOICEPEAKの注意点について記述しておきます。

VOICEPEAK 商用(業務用)利用の注意点

2023年1月13日からVOICEPEAKシリーズに商用利用など営利目的での使用には、別途個別契約が必要なラインナップが発売されます。
同じ「VOICEPEAK」であっても、「商用可能」と明記された「VOICEPEAK 商用可能 6ナレーターセット」以外は、実店舗での案内音声や留守番電話などの音声案内、法人が主催するイベント等での業務利用には別途契約が必要になります。詳しくは、公式のAHS VOICEPEAKライセンスをご確認ください。

商用利用ライセンスが含まれていないVOICEPEAKシリーズには、商用利用可能の文字の代わりに「VOICEPEAK 彩澄りりせ」といったキャラクター名が入っています。

VOICEPEAKは、アプリが多重起動したMacBookAir(M1)でも快適に動きます。さらに、WindowsでもMacOS(Linux含む)でも動作します。

「本製品は商用・業務利用不可製品」と注釈があるキャラクターシリーズの「VOICEPEAK 彩澄しゅお」や「VOICEPEAK 彩澄りりせ」には、別売の男性ボイスの「VOICEPEAK フリモメン」が同梱されています。

付属した「フリモメン」などの歌声データベースは、本体とは別のパソコンでも使うこともできます。

「フリモメン」に加えて「VOICEPEAK 桜乃そら」には「ポロンちゃん」が付属し、「VOICEPEAK 東北ずん子」には「ずんだもん」が付属します。

商用利用可能なVOICEPEAKと違い「ポロンちゃん」や「ずんだもん」には独特の癖(個性)があります。おまけという位置づけですが、音声合成感がないアニメキャラクターの様な声で、単体商品になっても充分満足できる品質だと思います。

ただし、「フリモメン」以外の付属する「ずんだもん」や「ポロンちゃん」は、AHS社のマイページ内に単体として製品登録ができないため、DLSiteの購入商品一覧からシリアル番号をコピーが必要となり、少し面倒です。

DLSiteではAmazonのように購入履歴を簡単に確認できるため、年月さえ覚えていればシリアルコードをすぐに確認できるため、パッケージ版や他のダウンロードサイトより安全だと思います。

さて、一番お得なのは、文字通り商用利用ができる、テキスト読み上げ型の音声合成ソフトです。ダウンロード版であればクーポン利用でDLsiteのVOICEPEAK 商用可能 6ナレーターセット ダウンロード版から購入するのが、一番安く購入できます。

初めてDLSiteを利用し登録したときに表示されるDLsiteチュートリアルをクリアする事で、25%OFFクーポンが手に入ります。攻略法については、DLsiteのクーポン情報と購入時の注意点に記事にしました。

注意点としては、DLsiteでの2本目の購入は、ポイント還元かつクーポン対象外のギフト券の購入となります。発売元直営サイトのAHSストアではダウンロード版は23,800(税込)になっています。

またAHSユーザー特別版のパッケージ版はAmazon価格に近い24,800(税込)になっています。AHSストアでのパッケージ版の割引セールは年に1回程度しか開催されず、開催されても対象にならないケースもあります。

Amazon販売リンク

VOICEPEAK 商用可能 6ナレーターセット
こちらはダウンローではなく、パッケージバージョンです。現物があった方が、安心感があります。ライセンスコードだけであれば、クーポン値引き等からDLsiteで販売されているVOICEPEAK 商用可能 6ナレーターセット ダウンロード版が一番安く購入できます。ただしDLsiteでは領収書が発行されない問題があります。事業所などでの利用では、領収書が発行されるAmazonが無難かもしれません。

DLsiteについて

DLstiteは、ちょっとエッチ。。。いやガッツリエッチな同人誌販売が主力ですが、運営会社は株式会社ゲオホールディングスの完全子会社の株式会社エイシスというちゃんとした会社ですので、危ないサイトではないです。

PCソフト以外のタブを触れない限り、普通の通販サイトです。DLstiteの販売ページはVOICEPEAK 商用可能 6ナレーターセット ダウンロード版です。

色々あるので、下にガジェットを貼りましたが、VOICEPAK以外の音声合成ソフトのパッケージはちょっとえっちなソフトっぽくなっています。

これは、歌声合成ソフトの先駆者であるYAMAHAの初音ミクのパッケージデザインの影響のようです。以前NHKの「プロフェッショナル」と言う番組で初音ミクの開発企画担当者が、ヒットするまではYAMAHA社内でも冷ややかに揶揄されたと当時を振り返っていました。

確かに、VOCALOIDなどの音声合成ソフトのパッケージが店頭に並んでいたら、目を逸らすかもしれません。