研究展示

メディアの科学

顔に合わせて声を作り、声に合わせて顔を作る

～深層生成モデルによるクロスモーダル音声変換～

どんな研究

私たちは、声の印象からその人がどんな顔か、また、顔の印象からその人がどんな声かをある程度想像できます。これは、声と顔には何らかの相関があるからだと考えられます。本研究では、与えられた顔画像の印象に合った声を作り出すクロスモーダル音声合成の問題に初めて取り組みました。

どこが凄い

音声変換器を深層生成モデルで表し、出力音声と入力顔画像との相互情報量を規準として音声変換器を学習する情報論的アプローチを考案しました。これにより、入力顔画像に合った声質に入力音声を変換するクロスモーダル声質変換技術を実現することに初めて成功しました。

めざす未来

私たち人間は、異なる感覚器官から得られる情報（視覚情報や聴覚情報など）を無矛盾に関連付けてモノや出来事を認識しています。本研究では、人間のこの知的な認識機能を実現することを究極の目標としています。

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

亀岡弘和(Hirokazu Kameoka) メディア情報研究部　メディア認識研究グループ
Email:

講演：山田武士 (所長講演)| 為末大 × 柏野牧夫 (特別対談) | 柏野邦夫 | 丸谷和史 | 服部正嗣

研究展示：1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
前へ | 次へ

研究展示

メディアの科学

関連文献

ポスター

当日の様子

連絡先