4388 M-エーアイ 2019-09-13 17:00:00
次世代音声合成エンジンの企業化に関するお知らせ [pdf]

                                                       2019 年 9 月 13 日
各    位
                                        会 社 名 株式会社エーアイ
                                        代表者名 代表取締役      吉田    大介
                                            (コード:4388、東証マザーズ)
                                        問合せ先 取締役 副社長
                                             ビジネスソリューショングループ統括
                                             廣飯   伸一
                                             (TEL.03-6801-8402)


             次世代音声合成エンジンの企業化に関するお知らせ

    当社は、2019 年 9 月 13 日の取締役会において、下記の通り次世代音声合成エンジン「AITalk®5
(仮称)
   」の企業化を行うことについて決議いたしましたのでお知らせいたします。


1.   次世代音声合成エンジン「AITalk®5(仮称)
                            」開発の背景
         音声合成の活用シーンは、現行製品である音声合成エンジン「AITalk®」の提供を開始し
     た 2007 年より、電話の自動応答音声に始まり、防災行政無線の放送音声や、e ラーニング・
     動画などのデジタルコンテンツのナレーション等の情報配信・伝達での活用が拡がりまし
     た。その様な用途において最適な音声合成方式として、アナウンサーやナレーターの音声
     を高品質で再現することができる「コーパスベース音声合成方式※1」を採用し、
                                         「AITalk®」
     シリーズを提供して参りました。
         音声合成が普及する状況において、昨今の音声合成の活用シーンにおいては、AI・人工
     知能技術の高度化により、スマートフォン、スマートスピーカーやコミュニケーションロ
     ボットの普及が急速に進み、音声による機器操作や、ロボットとのコミュニケーションな
     どの手段として、双方向の対話に適した感情表現豊かな音声合成が求められる様になりま
     した。
         当社においても、対話型の音声合成が必要なシーンにおいて、芸能人や声優などの特定
     の方の声で音声合成を実現する「AITalk® Custom Voice®」により、音声合成の個性化や感
     情表現に対応した音声合成エンジン「AITalk®4」を提供することで、対話に対応した音声
     合成エンジンを提供しています。しかしながら、現行の「コーパスベース音声合成方式」
     では、対話型の音声合成に必要な、喜び・怒り・悲しみ等の感情音声辞書を個別に作成す
     る必要があり、コストが大きく発生してしまう点や、合成の際に感情が不連続に変化し、
     なめらかではないという課題があります。この課題を解決することを目指し、2017 年 7 月
     から 2018 年 12 月末までの 1 年半、
                            「平成 29 年度   新製品・新技術開発助成金事業」とし
     て、近年、音声認識や画像認識、機械翻訳などの様々な人工知能(AI)技術において広く
     活用されている最先端の技術である深層学習※2 を活用した「DNN※2 音声合成エンジン」の研
     究開発を進めてきましたが、その成果を企業化することと致しました。
     ※1:「コーパスベース音声合成方式」とは、予め収録した音声の特徴を学習し、音素片辞書と韻律辞書からなる

     音声辞書(コーパス)を作成。日本語テキストを解析し読み方やアクセントの付与をおこない、韻律辞書により音

     の高さや長さなどを予測した上で、音素片辞書から選択した最適な音素片を音声波形として接続し、出力する方式。

     ※2:「深層学習」とは、人や動物の脳の神経回路をモデルにした、多層のニューラルネットワーク(DNN:ディー

     プニューラルネットワーク)による機械学習の手法。



2.   次世代音声合成エンジン「AITalk®5(仮称)
                            」の概要
(1) 特徴
         次世代音声合成エンジン「AITalk®5(仮称)」は、活用シーンに合わせて、従来型の
       「コーパスベース音声合成方式」と「DNN 音声合成方式」を選択することができ、以下
       の特徴があります。
     ① 深層学習を活用することで音質が向上し、さらなる人間的で自然な高品質音声合成を実
        現しています。また、従来の「AITalk®4」にあった不連続で急な感情変化を解消し、喜
        び・悲しみ・怒りの感情がなめらかに遷移する感情豊かな音声合成を実現します。
     ② 従来の「AITalk®4」では、喜び・怒り・悲しみの感情音声辞書を作成する際、それぞれ
       の感情をもつ音声収録と音声辞書作成を行う必要がありましたが、次世代音声合成エン
       ジン「AITalk®5(仮称)」では、深層学習を活用することで、従来よりも少量の収録音
       声から新たに音声辞書を作ることが可能になるため、収録時間と音声辞書作成時間の短
       縮と音声辞書作成コストが削減され、より安価に提供することが可能となります。


(2) 製品ラインナップ
     ① AITalk®5 SDK:開発キット/ライブラリ
     ② AITalk®5 Custom Voice®:オリジナル音声辞書作成サービス
     ③ AITalk®5 Editor:ナレーション・ガイダンス音声作成ソフト
     ④ AITalk®5 Server:サーバー設置型音声合成
     ※現時点での製品名は仮称です。



3.   販売開始日
     2020 年 4 月予定(SDK/Custom Voice®/Editor)
     2020 年 10 月予定(Server)


4.   売上高への影響
      当期の業績予想に与える影響はございませんが、中長期的には売上高増加に寄与するこ
     とが見込まれます。


5.   企業化のために特別に支出する額
      新製品の研究開発における経常的な原価として人件費等が発生しておりますが、特別な支
     出はございません。
                                                      以   上