更新日:2020/07/28
※記事本文中の研究所名が、執筆・取材時の旧研究所名の場合がございます。
同じ声質を保ちつつ異なる言語による音声合成を可能にするクロスリンガル音声合成プラットフォームを開発しました。訪日外国人向けに英語・標準中国語・広東語・韓国語に対応し、エージェントやロボットのキャラクター性を損なわずに複数言語によるサービスを実現可能です。最先端のDNN(Deep Neural Network)技術を用いた高品質かつ多様な合成音声をRESTfulなWebAPIを備えた音声合成サーバにより提供可能であり、様々なソフトウェアに簡単に組み込めます。
統計モデルを用いた音声合成技術による多様な合成音声の実現により、音声合成技術は、読み上げ音声による情報伝達用途だけでなく、TV放送や電子書籍などのコンテンツ作成用途、音声対話システム、ロボット向けなど様々な用途で利用されてきています。
訪日外国人等向けのキャラクター・ロボットの多言語対応や、多彩なコンテンツ作成に応える高品質な音声合成の実現、音声対話システムでのキビキビとした音声応答などといったニーズに応えていく必要があります。
最新のDNN技術を用いた不特定話者声質変換技術により、英中韓のネイティブ話者音声の声色を、日本語しか話せないキャラクター等の音声の声色に変換することで、クロスリンガル音声合成を実現しました。
また、読みやアクセント等の発話に関する情報の他に、話者に関する情報も入力に加えてDNNモデルを学習することにより、発話情報と話者情報を分離した学習を可能にし、合成対象の音声データが少量しか用意できない場合でも、他の話者の音声データで補完し、高品質な合成音声を生成可能にする複数話者モデリング技術を確立しました。
RESTfulなWebAPI
REST(Representational State Transfer)というソフトウェアアーキテクチャスタイルの原則(URIで公開されていること、HTTPメソッドを利用すること、ステートレスであること、ハイパーメディア的な書式で情報を表現すること)に則って構築されたWebシステムのHTTPでの呼び出しインターフェースのこと。
NTTメディアインテリジェンス研究所 心理情報処理プロジェクト