顔に合わせて声を作り、声に合わせて顔を作る
~深層生成モデルによるクロスモーダル音声変換~
どんな研究
私たちは、声の印象からその人がどんな顔か、また、顔の印象からその人がどんな声かをある程度想像できます。これは、声と顔には何らかの相関があるからだと考えられます。本研究では、与えられた顔画像の印象に合った声を作り出すクロスモーダル音声合成の問題に初めて取り組みました。
どこが凄い
音声変換器を深層生成モデルで表し、出力音声と入力顔画像との相互情報量を規準として音声変換器を学習する情報論的アプローチを考案しました。これにより、入力顔画像に合った声質に入力音声を変換するクロスモーダル声質変換技術を実現することに初めて成功しました。
めざす未来
私たち人間は、異なる感覚器官から得られる情報(視覚情報や聴覚情報など)を無矛盾に関連付けてモノや出来事を認識しています。本研究では、人間のこの知的な認識機能を実現することを究極の目標としています。