研究展示

メディアの科学

19

顔に合わせて声を作り、声に合わせて顔を作る

深層生成モデルによるクロスモーダル音声変換

どんな研究

私たちは、声の印象からその人がどんな顔か、また、顔の印象からその人がどんな声かをある程度想像できます。これは、声と顔には何らかの相関があるからだと考えられます。本研究では、与えられた顔画像の印象に合った声を作り出すクロスモーダル音声合成の問題に初めて取り組みました。

どこが凄い

音声変換器を深層生成モデルで表し、出力音声と入力顔画像との相互情報量を規準として音声変換器を学習する情報論的アプローチを考案しました。これにより、入力顔画像に合った声質に入力音声を変換するクロスモーダル声質変換技術を実現することに初めて成功しました。

めざす未来

私たち人間は、異なる感覚器官から得られる情報(視覚情報や聴覚情報など)を無矛盾に関連付けてモノや出来事を認識しています。本研究では、人間のこの知的な認識機能を実現することを究極の目標としています。

関連文献

  • [1] H. Kameoka, T. Kaneko, K. Tanaka, N. Hojo, “StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks,” in Proc. 2018 IEEE Workshop on Spoken Language Technology (SLT 2018), pp. 266-273, 2018.
  • [2] H. Kameoka, T. Kaneko, K. Tanaka, N. Hojo, “ACVAE-VC: Non-parallel voice conversion with auxiliary classifier variational autoencoder,” arXiv:1808.05092 [stat.ML], 2018.
  • [3] H. Kameoka, K. Tanaka, A. Valero Puche, Y. Ohishi, T. Kaneko, “Crossmodal Voice Conversion,” arXiv:1904.04540 [cs.SD], 2019.

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

亀岡 弘和(Hirokazu Kameoka) メディア情報研究部 メディア認識研究グループ
Email: