メディアの科学

研究展示 16

聞きたい人の声に耳を傾けるコンピュータ

~深層学習に基づく音声の選択的聴取~

どんな研究

会話の中で複数の人が同時に話している時でも、人間は聞きたい人の声に集中し、聞き分けること(選択的聴取)ができます。一方、コンピュータにはその能力がなく、聞きたい人の声だけをうまく聞き取ることはできません。コンピュータによる選択的聴取の研究を進めています。

どこが凄い

事前に収録した聞きたい人の声を補助情報として利用し、複数人が同時に話している時に、その人の声だけを聞き取ることができる技術『適応型ニューラルネットワーク』を実現しました。これにより、聞きたい人の声に耳を傾けることができるコンピュータを実現しました。

めざす未来

ロボット・ホームアシスタント・スマートスピーカなどの遠隔音声収音装置が、注目すべき話者の声だけを聞き取ることができるようになります。それにより、例えば、ロボットが特定の人の声にのみ反応するなど、人とより自然に会話できるようになります。

関連文献

  • [1] K. Zmolikova, M. Delcroix, K. Kinoshita, T. Higuchi, A. Ogawa, T. Nakatani, “Speaker-aware neural network based beamformer for speaker extraction in speech mixtures,” in Proc. Interspeech, 2017.
    [2] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, T. Nakatani, “Single channel speaker extraction and recognition with SpeakerBeam,” in Proc. of 2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’18), 2018.

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

展示代表者

デルクロア マーク
デルクロア マーク
メディア情報研究部