更新日:2023/10/31
同じ声質を保ちつつ異なる言語による音声合成を可能にするクロスリンガル音声合成プラットフォームを開発しました。訪日外国人向けに英語・標準中国語・広東語・韓国語に対応し、エージェントやロボットのキャラクター性を損なわずに複数言語によるサービスを実現可能です。最先端のDNN(Deep Neural Network)技術を用いた高品質かつ多様な合成音声をRESTfulなWebAPIを備えた音声合成サーバにより提供可能であり、様々なソフトウェアに簡単に組み込めます。
統計モデルを用いた音声合成技術による多様な合成音声の実現により、音声合成技術は、読み上げ音声による情報伝達用途だけでなく、TV放送や電子書籍などのコンテンツ作成用途、音声対話システム、ロボット向けなど様々な用途で利用されてきています。
訪日外国人等向けのキャラクター・ロボットの多言語対応や、多彩なコンテンツ作成に応える高品質な音声合成の実現、音声対話システムでのキビキビとした音声応答などといったニーズに応えていく必要があります。

最新のDNN技術および多数のバイリンガル話者の音声データを用い、同じ声色での言語的な音の特徴を学習することで、日本語しか話せないキャラクター等の音声から、英語・標準中国語・広東語・韓国語といった多言語音声を生成可能とするクロスリンガル音声合成を実現しました。
また、読みやアクセント等の発話に関する情報の他に、話者に関する情報も入力に加えてDNNモデルを学習することにより、発話情報と話者情報を分離した学習を可能にし、合成対象の音声データが少量しか用意できない場合でも、他の話者の音声データで補完し、高品質な合成音声を生成可能にする複数話者モデリング技術を確立しました。
NTT人間情報研究所 思考処理研究プロジェクト