「UDトーク」音声認識文字起こし型コミュニケーションツール

最近、記者クラブなどの記者会見でもよく見かける、コミュニケーション支援・会話の見える化アプリ「UDトーク」は、有償の機密使用と、ボランティア貢献的な相互無償奉仕でも使うことができる音声を自動文字起こしツールです。

介護や医療現場で実際に使われているため、福祉関係や数値や医療用語に強い音声認識学習がされています。

開発は外注ではなく代表兼エンジニアによる自社開発

どういったソフトなのかを、改めて紹介するよりも、UDトークを開発している、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が自身による説明を見た方が早いので動画をご覧ください。

UDトークは代表兼エンジニアによる完全自社開発ソフト

UDトークは、ソフトウェアを外部発注することなく、自社で開発していて、開発者自身が営業までやっています。

ソースネクストのオートメモを初め、自動文字起こしサービスを提供している会社は複数存在しています。

今回色々あって、法人として数社の営業担当と複数の担当との打ち合わせに立ち会ったのですが、一番信頼感を持て、企業理念について安心感が持てたため、導入の方向で進んでいっています。

都合が悪いことは話さない「見つからなければ問題ない」といった職場環境が多い中、正々堂々と勝負して、「嘘をつかない、ごまかさない」といった、プリミティブ(原始的)な企業理念や社風を持っていることは本当に大切なことだと、最近特に実感しています。

法人プランと無料プランの音声認識精度は一緒

UDトークの音声認識のコアプログラムの精度は、無料プランと一緒です。違いは、音声認識に関係する履歴の扱いだけになっています。

厳密には、使用環境や独自の言い回しの学習があるので、有料プランなどでは学習の並列化が起こらないため、言葉の頻度に応じて精度が変わってきます。

有料プランは処理をするサーバーが分かれていたり、医療介護現場などの現場で使われる状態から、セキュリティやプライバシーへの配慮もしっかりされています。

実際にメジャー新聞記者などメディアが利用している

さらに、記者会見などで発表者の前に並ぶ、各メディアの録音機の中で、UDトークが起動しているスマホなどが一緒に並んでいることを良く見るようになりました。

今までオートメモがTVやYouTubeなどのLive会見などで写っているところを見たことはありませんが、ガチでプロの記者やライターがUDトークは利用しているようです。

UDトークは一般利用で精度を上げている

UDトークの無料版は、音声データを収集して認識率向上のために再利用している事が明記されています。録音のたびに「人気式精度向上のため音声をサーバーに保存しています(利用規約参照)」と、表示が出ます。

認識率向上のため音声をサーバーに保存しますという案内

また、UDトークは音声認識精度について正直です。これは、教育機関向けの案内でも読み取ることができます。

「聴覚障害がある学生がオンラインで授業を視聴するために対象学生に配布をしたい」

と言われます。ですが、これは学校が導入して使う使い方としては「間違っています」。オンラインで配信されてるものを自分のスマホを使ってそこで音声認識して字幕で見るだけなら、それは学校がサポートをしているとはいいません。別に学生さんはUDトークだろうがGoogleのアプリだろうが別になんでもいいのです。

学校が導入してサポートをすると言うことはどういうことか?と言うと「先生が使う」ということです。先生がきちんと単語登録をしてUDトークを手元でつかい、QRコードを発行して学生さんに案内をします。学生さんはオンラインの授業を見ながらスマホのUDトークで字幕を見ます。支援室の人たちはオンラインの授業を見ながら誤認識の編集をしましょう。

これが正しい使い方です。

直接開発販売元公式UDトーク「【トピック】教育機関での使い方、あってますか?」より

音声認識ソフトについての精度については、先のYouTubu動画による開発者である青木さんの説明の通り、音声認識で正しく認識できる話し方をしなければ、正確に認識できません。

開発者でもありプロモーターとして一番業界に詳しい青木さんが「UDトークも含め無料で使える音声認識はだいたい「音声データを収集」しています。」に続き、「データの提供に協力している」という自発的な気持ちで、使うという発言は、良い方向性だと思います。

音声認識学習の精度を上げるには、正しい日本語や節度ある会話を学習させたいところがありますが、ぐっと堪えている感じもします。

精度が低いわけではない

UDトークの利用には、「支援室のサポートが正しい使い方」とありますが、決して音声認識精度が低いわけではありません。

たしかに、奇怪な翻訳をします。例えばオートメモを「嘔吐メモ」などと、認識したりもします。医療介護関係で利用される事が多いのかもしれませんが、その発想には驚きました。

「UDトーク」はコミュニケーションツール

ソースネクストのオートメモや、Appleの音声認識入力を利用して感じることは、普段の会話をそのまま文字化しても、口語といえども読み言葉にはなりません。

文脈から内容や空気を読んだりしながら、なるべく正確な修正をするために、音声データから修正履歴や単語ごとのレパートリー、単語のグルーピングなどがおこなわれています。

人間の会話は文法通りではない

普段は気になりませんが人間は文法通りに話していません。聞き手が、何となくこんなこと言っているのかな?と文脈や流れから、空気を読んで、脳内変換をしています。

そのため聞き間違いなども普通に起こります。

岡山弁の「早くしなさい」は、方便で「早くしねっ」と発せられます。「早くしなさい」の意味に気づくまで1週間ぐらい悩んだ末に相談で判明したエピソードで極端な例にはなりますが、状況や文脈によって大分意味が変わってきます。

こういった感じで、音声を五十音通りにそのまま文字化しても伝わらないこともあります。

ここが、音声認識の難しい所になっています。

UDトークは数値の認識精度が特に高い

オートメモSでは、数値や数の認識や、和製英語や、ドモッタ声は、認識されずに文字化されないケースが多いです。

UDトークがオートメモより優れているのは、数値の認識精度です。

難聴者への介護現場などでの使用も想定されているため、数値や電話番号の読み上げ、など、医療で使われる数値の認識精度が高くなっています。

「UDトーク」は介護現場で強い

試しに、医療関係の接応ロールプレイ・シナリオを読み上げてテストをしてみましたが、数値関係はかなり優秀でした。

医療用語が入ったNGシナリオの会話も、患者に寄り添った丁寧な会話もどちらも上手に認識し文字化されました。

UDトークが使うAmiVoice API

UDトークでは、20年以上の実績を持ち自社内に独自の研究部門で最新の技術やデータを使って分析やチューニングを行っているAmiVoice Cloud Platformの音声認識エンジンを使っています。

AmiVoice APIの導入事例にTBSテレビがあり番組制作の現場で文字起こし利用について書かれていました。

カスタム版だとは思いますが、金融業や医療など特化したエンジンサービスもあり納得しました。

ファーストフード店の会計でも使える可能性がある

福祉関係も試したので、ついでに、ファーストフード店の注文をイメージした会話をしてみました。

「ワンバーガープリーズ」あたりのかけ声以外は、ちゃんとお会計金額まで正しく文字化され使えそうな感じがしました。

最近は、ビニールシートやパネルとマスクで声が通らないこともよくあります。利用シーンは多いような気がします。

AIは学習環境で大きく左右される

ビックデータ解析やAI学習により、子供の成長と同様に精度が上がります。

脳型コンピュータの第一人者の松本元さんが登壇されたシンポジウムで、学習は環境によって変わるといった話を聞いた記憶があります。

まっさらな子供と同じなので、夫婦喧嘩の絶えない家庭の子供が、ごっこ遊びで大人の台詞を話すのと同様、普段利用している言葉が、出てきます。

UDトークは一般会話に強いが一般的でないビジネス用語には弱い

聞き慣れない言葉の認識は人間にも難しいように、UDトークの利用層の発言に強くなるため、お堅いビジネス用語などには今のところ若干弱い感じがしました。

ただし、カスタマーなどでの一般会話では、なかなか優秀な感じがします。

ビジネスでの利用での音声学習ができない事が影響しているようですが、自社に合わせた学習での対応でその差は縮むと思います。

言葉を教えるための言語辞書登録機能をしっかりすれば対応できそうな気がします。

クレーム対応での音声について

企業でのクレーム対応などでの発言は、担当オペレーターが趣旨を報告書に要約して記録しているケースが多いようです。

以前職場の商品開発部門で外注コールセンターや派遣社員による報告書には、開発サイドにとって重要なヒントが多くのケースで抜け落ちているケースが凄く多いと感じたことがあります。

自社の保身を離れてオリジナル録音を聞いたとき、キツい怒り口調のクレーム電話の録音でしたが、凄い正論で訴えていました。そして、その電話録音でコアとなる問題部分が、報告書から完全に抜け落ちている事に気付きました。

売り言葉に買い言葉で電話がエスカレートしていくと、音声の取り扱いに配慮が難しくなります。

一番肝心な本音は、人間には聞き取れても音声認識では解析できないケースも多くあります。

文章化により更に分からなくなります。UDトークに限らず、クレーム対応での記録目的での利用ではあまり役に立たないケースが多いと感じました。正直、文章化された物を読みたくないです。

音声認識はマイクが命

音声認識はマイクの精度が命です。

Google検索で音声認識に関する検索結果から、2009年2月27日に「公立はこだて未来大学」で名古屋工業大学大学院 准教授 李 晃伸氏の講演で使われた「音・声の認識技術とその応用」講演資料がわかりやすかったのでリンクを貼ります。

音声認識はスペクトル分析がしっかりできれば良いようです。人間の耳には認識できない音域を削除することでデーター量を抑えるMP3などでは難しいかもしれません。

現在Bluetoothの音声伝達ではオーディオ用をのぞき汎用規格ではMP3のような非可逆圧縮伝送が一般的に使われています。

ただ、MP3などの音声圧縮で切り捨てられた音声成分を予測して復元する研究などもあるため、音声認識の汎用コーデックが公開されると状況は変わってくるかもしれません。

ノイズ耐性はマイク特性で決まる

無指向性のマイクでは周囲のノイズに音声が埋没してしまい、音声認識が難しいケースもあります。

指向性の強いマイクを使うことで、認識精度は格段に上がってきます。

指向性の強いマイクとは、インタビューなどでは胸元に付けるピンマイク(ラベリア・コンデンサーマイク)や、音声さんが棒に付けて相手の口元をレンズに映り込まない方向に向けるガンマイクなど指向性の高いマイクを使う事で声だけを収録します。

最近は、ZYLIA ZM-1などの球状に配置した19個のマイクから音声を分離して各方向への指向性バーチャルマイクを演算で作り出す技術まであります。

2022年時点で、コンデンサーマイクをユニットとして組み込み生音声波形をそのまま使う方法とは次元が違ってきています。

Apple端末のマイクで最新技術が利用できる

Apple端末であれば、最新の音声収録システムが利用できます。UDトークのマイク設定で、「標準」「声を分離」「ワイドスペクトル」の3つのモードから選んで利用することができます。

人間の耳は、聞きたい音声に注力して他の音を感じさせない能力があります。二つの耳と皮膚から入る音波を処理して、音の発する方向や、波形特徴を抽出して、聞きたい声を取り出します。

すでに、この技術は、Appleの端末が特に優れていて、CPUの専用ハードウェアや世界最高峰の報酬で働く開発者集団、地球規模でSiri誕生以来ずっと収集され続けた利用者の音声データなどの技術の結晶です。

そもそも、リビングなどに置かれたiMacやiPadへのSiriによる音声応答の機能を実現するために設計されたマイクであり、音声認識に最適化されたマイクシステムにも見えます。

UDトークで選択できるApple端末のマイクは凄い

このマイクシステムは、かなり優秀で、静かな部屋の真ん中に置いておくと、電話で話している会話もバッチリ拾い上げてしまいます。

隣の部屋にもテレワークで仕事をしている人がいるため、大きな声で話していたわけではないですが、普通に聞き取ってテキスト化されており、特に数の読み取りは数字の単位までしっかり認識していて有効でした。

ファーストフード店の注文をUDトークで再現

もしかして、ファーストフード店の注文取りも正確にこなせそうな気がします。

試しにテストして見たのが、隣のキャプションです。「チーズバーガワン、ポテトワン、サラダワン、プリーズ」と早口で言ったところがダメですが、おおかたうまく認識しています。

UDトークは無料で使えるので、色々試してみるのが一番です。

AutoMemo的な使い方

UDトークも会話履歴を取り出して、メールで送ることもできます。

新規トークの設定で、録音データを残すこともできます。時間を含んだデータなど、元々UDトークでYouTubeの字幕利用なども想定して色々作られているため至れり尽くせりです。

少し配線などの工夫をして、音声を分離することで、音声収録と、同時字幕の作成など、イベントでの利用も想定して作られています。

AutoMemoとの違い

AutoMemoSはオートメモという商品名通りボイスレコーダーと言うよりメモです。

文字化で、文字と音声が同期しているなど、メモとしての使い勝手は良いです。

注意点もあり、録音データはクラウドサーバーに送信されると、ノイズリダクション処理がおこなわれ、人の耳でなんとか聞き分けられる言葉でも消される事もあります。

本体の録音容量がいっぱいになると、録音が押し出され、クラウドサーバーからのダウンロードになります。

UDトークはAutoMemoの代わりになるか?

UDトークでも、AutoMemo的な文字化に使うこともできますが、あとから聞き直したり見直したりする場合では、オートメモの方が使い勝手がいいと感じます。

ただし、ノイズ処理によりクラウド上の音声データから、一番確認したい聞き取りにくい音声を無音にしてしまうため、ソースネクストのオートメモは、記者などが取材で記録用としては使えません。(だから記者会見でTV画面に映り込まないのかもしれません)。

音声の欠損については、AutoMemoSを研修会でメモがわりに使って気づいたことです。登壇者の声が小さいと、会場では聞き取れていても、録音ではノイズに埋もれるケースがあります。

UDトークは設定で、端末内にオリジナル音声録音を残せるので記録になります。

結局、音声データを文字化するという機能は一緒ですが、場合によりけりで、別物かなと感じます。

音声の録音記録について

UDトークは、サーバーに音声が残るわけではないので、端末間の音声共有はできませんが、取材用のケースで書いたとおり、UDトークは「音声をファイルで保存する」にチェックするとオリジナル音声の録音もできます。

AutoMemoの用に、発音と連動しないため後から探すことが難しいですが、音声データは端末の中に残るため、聞き取りにくいところは後から、人の耳で確認することができます。

料金体系について

UDトークは、月額980円で使い放題のコンパクトプランで、音声データを再使用しない法人向けサーバーが利用できます。

を見てみると、法人プランでは個別の契約ではなく、拠点単位となり端末数に制限がありません。プレミアムプランなら法人単位で無制限利用でも毎月6万7千円(2022年7月時点)と、かなりリーズナブルな料金体系になっています。

別途iPadなどの端末台が必要になりますが、Appleの法人契約もあり、あんまり好きではありませんが国の補助金を使うと。。。かなり初期投資を抑えることができます。

中古で2万円の整備済みiPhone8といった選択肢もある

AmazonでiPhoneと検索すると、iOS16にも対応しているSIMフリー版iPhone8の整備品が2万円から購入できます。。。Apple認定ではありませんがAmazonの180日返品保証対象で伊藤忠商事株式会社で100%(間接保有含む)の「にこスマ (伊藤忠商事グループ)」さんが販売しています。

iPhone8のマイクは下側面にあり、全面と背面はノイズキャンセル用です。登壇者の近くに置く場合はマイクの指向性を向けやすくていいです。

逆に会議やパネルを挟んで使う場合は、iPadの方が良いです。それにしても、中古で2万円で買えるなんてびっくりしました。

iOS16はiPhone8以上で対応

iOS16のアップデートで、iPhone7が対象外になります。iPhone8はまだ対応していますが、それより古い機種はOSのアップデート対象から外れてしまうので注意が必要です。Apple公式iOS16プレビューより

最終的にどうなのか?

UDトークはパブリックなコミュニケーションツールで、オートメモはメモなので、代わりにもなるし、代わりにはならない別物とも取れます。

仕事やボランティアなどの窓口対応などの利用であれば、UDトークが向いていると思います。

最初から文字入力を意識した音声入力なら、AutoMemoやUDトークよりも、最初からSiriの音声入力を使った方が快適です。

個人利用でも、ソースネクストのオートメモのプレミアムプランは30時間で980円ですが、無音時間もカウントされるため利用時間を有効活用しようと範囲指定などをする手間を考えると、UDトークの方が使い勝手がいいです。

職場で大活躍のUDトーク

テレワークの時にはあまり使い所がありませんでした。

ところが、6月から8月初めまでの本社勤務での会議の時にUDトークを起動したスマホを利用したところ、ほんと議事録が楽です。

5月からQCサークルなどのグループ活動でも利用していたそうで、今新卒研修の現場で結構評判が良かったと聞いています。

毎月980円を払うなら、UDトークのコンパクトプランと、2万円の中古のiPhone8の組み合わせが一番、バッテリーの持ちや、汎用性など総合的に考えてベストチョイスかなと、個人的には思いました。

音声認識の究極目標

音声認識技術が行き着く究極の目的地は、話の内容から趣旨を読み取り、短い文章でまとめ上げる形になるかと思います。

現状では、話した本人が発した言葉通りに変換する勉強段階であり、日本語会話についてはGoogleやAppleを含め認識精度は横並びだと僕自身は感じました。

名の通った企業による宣言が安全とは限らない

いくら約款やプライバシーポリシーで、セキュリティやプライバシーに準拠していると宣言していても、実体的に約束が守られていないケースがあります。

残念なことに日本で名の通った複数の大手企業による、現場での検査データの偽造などの不正発覚が新聞の紙面に出ることが増えてきました。組織的な風土なので。。。。どうしようも無いところもあります。

実際に自分たちの手で物を作らず、営業実績や外部開発で販売が外注されている企業では、企画しか書けず数字だけで判断する傾向が強く、コンプライアンスが瓦解している傾向が多いと肌で感じています。

同じ社内でも部門や組織にある空気感の違いは部署転換で入れ替わらないと気付かない物です。

トップの倫理観が低ければアウトですが、コンプライアンス関係は特に、理念研修や階層別研修などの社内研修が重要になり、働く人が多いほど難しい問題になっています。

シャムロック・レコードさんは、企業規模もまだ小さく、開発者自身が現場を見て代表として目を光らせているので、行動にも矛盾が無く安心できると感じました。

UDトーク無料版を利用することで、社会に貢献できる

今回、ホビー三昧Dとしては、個人的には、Shamrock Records(シャムロック・レコード)さんの企業としてのあり方に共感しました。

そこで、UDトークを利用することで、社会に貢献できると言うことを、アピールしようと思います。

無料版を利用することで、音声データは収集されます。ただし、自社の利益を追求を最優先に考え、企業の利益を追求するためのマーケティングで利用されたり、現場および経営者のコンプライアンスが極度に低い一部の劣悪な外部発注ソフト会社に流れる恐れは低いと思います。

AI学習による音声認識は、育った環境によって大きく変わってきます。綺麗な言葉や知的な発言をする利用者がUDトークを使うことで、「育ちの良い子供」のような、慈愛に満ちた音声認識システムに育てっていったら良いなと思いました。

一般利用と隔離されたサーバー処理の有料契約では、独自の成長が続き、温もりのある応対ができる「ウチのUDトーク」なんていう存在に育っていく可能性もあります。

ロボットやAIが出てくるSFではありませんが「ウチのUDトーク」なんか、愛着が湧いてきます。みんなのUDトークっていうのも、いい感じがしました。

関連製品記事