研究展示

メディアの科学

18

声と話し方を好みのスタイルに変える

系列変換モデルに基づく声質と韻律の同時変換

どんな研究

話し声は抑揚や声質、リズムによって雰囲気が大きく変化します。系列変換モデルを用い、音声の様々な変動要素を柔軟かつ高品質に変換・生成する技術の研究です。例えば、ユーザーが望んだ人の音声に自動変換したり、聞き取りやすい母語話者の発音とリズムに変換することが可能です。

どこが凄い

従来の音声変換技術の研究では声質の変換のみに着目したものが多かったのですが、本技術では声質だけでなく抑揚やリズムも自動変換することが可能です。また、機械的に感じる合成音声の波形を心地よく聞き取りやすい音声へと直接変換する深層学習アプローチを世界で初めて実現しました。

めざす未来

本技術を用いることで、既存の音声変換で実現し得なかった高品質な音声変換が可能になります。今後は、感情音声変換や非母語話者の聞き取りにくい音声を母語話者風の音声に変換する研究、発声障がい者支援への応用などを行い、多様で表情豊かな音声変換技術の実現を目指しています。

関連文献

  • [1] K. Tanaka, H. Kameoka, T. Kaneko, N. Hojo, “AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms,” in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), May 2019.
  • [2] K. Tanaka, H. Kameoka, T. Kaneko, N. Hojo, “WaveCycleGAN2: Time-domain Neural Post-filter for Speech Waveform Generation,” arXiv:1904.02892, Apr. 2019, (submitted to Interspeech2019.)

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

田中 宏(Kou Tanaka) メディア情報研究部 メディア認識研究グループ
Email: