更新日：2023/10/31

同じ人の声で、異なる言語の音声を合成しますクロスリンガル音声合成プラットフォームNTT人間情報研究所

概要

同じ声質を保ちつつ異なる言語による音声合成を可能にするクロスリンガル音声合成プラットフォームを開発しました。訪日外国人向けに英語・標準中国語・広東語・韓国語に対応し、エージェントやロボットのキャラクター性を損なわずに複数言語によるサービスを実現可能です。最先端のDNN(Deep Neural Network)技術を用いた高品質かつ多様な合成音声をRESTfulなWebAPIを備えた音声合成サーバにより提供可能であり、様々なソフトウェアに簡単に組み込めます。

背景・従来課題

統計モデルを用いた音声合成技術による多様な合成音声の実現により、音声合成技術は、読み上げ音声による情報伝達用途だけでなく、TV放送や電子書籍などのコンテンツ作成用途、音声対話システム、ロボット向けなど様々な用途で利用されてきています。
訪日外国人等向けのキャラクター・ロボットの多言語対応や、多彩なコンテンツ作成に応える高品質な音声合成の実現、音声対話システムでのキビキビとした音声応答などといったニーズに応えていく必要があります。

本技術のアドバンテージ

日本語しか話せないキャラクタ・ロボット等の音声から、英語・標準中国語・広東語・韓国語の合成音声を生成可能
最新のDNNを用いた超多人数話者音声の同時モデリング技術により、正味2〜3分程度の少量音声から高品質で多様な合成音声を生成可能
ストリーミング的に部分的な合成結果を返却する機能により、テキスト全体を合成する場合に比べ高速な応答が可能となり、音声対話システムでのキビキビとした音声応答を実現
RESTfulなWebAPIのインターフェースにより、さまざまな機器・OSで利用可能

利用シーン

AIエージェントやロボットなどの音声対話システム
多言語での情報提供サービス
ゲーム等におけるバーチャルキャラクタの音声コンテンツ作成
e-ラーニング教材や電子書籍の読み上げ音声作成

解説図表

技術解説

最新のDNN技術および多数のバイリンガル話者の音声データを用い、同じ声色での言語的な音の特徴を学習することで、日本語しか話せないキャラクター等の音声から、英語・標準中国語・広東語・韓国語といった多言語音声を生成可能とするクロスリンガル音声合成を実現しました。
また、読みやアクセント等の発話に関する情報の他に、話者に関する情報も入力に加えてDNNモデルを学習することにより、発話情報と話者情報を分離した学習を可能にし、合成対象の音声データが少量しか用意できない場合でも、他の話者の音声データで補完し、高品質な合成音声を生成可能にする複数話者モデリング技術を確立しました。

用語解説

RESTfulなWebAPI
REST(Representational State Transfer)というソフトウェアアーキテクチャスタイルの原則(URIで公開されていること、HTTPメソッドを利用すること、ステートレスであること、ハイパーメディア的な書式で情報を表現すること)に則って構築されたWebシステムのHTTPでの呼び出しインターフェースのこと。

担当部署

NTT人間情報研究所　思考処理研究プロジェクト

採用サイトへ研究所へのお問い合わせ

リサーチ&アクティビティ一覧に戻る