メディアの科学

研究展示 17

二択問題にして解くことでAIは賢くなる

~深層学習による仮説比較と音声認識結果選択への応用~

どんな研究

本展示で紹介するAI(深層学習モデル)は、ある問題に対する解の候補(仮説)が二つ与えられたときに、より良いと推定される方を選択します。本AIを複数の音声認識仮説から最終的な認識結果を選択する問題に応用することで、認識精度を大きく向上させることができます。

どこが凄い

本AIは最新の深層学習技術に基づきモデル化されています。二択問題を解くことに特化することで、高精度化・コンパクト化を実現しています。現在最も広く用いられている仮説選択モデルと比較して、1/10以下のパラメータ数で、より高精度に仮説の選択を行うことができます。

めざす未来

本AIは音声認識に限らず機械翻訳や文書要約など、複数の仮説が出力されるタスクに幅広く応用可能です。また我々の普段の生活においても二択問題は頻繁に生じます。将来的には本AIが我々の重要な決定においてより良い選択ができる手助けになると期待できます。

関連文献

  • [1] A. Ogawa, M. Delcroix, S. Karita, T. Nakatani, “Rescoring n-best speech recognition list based on one-on-one hypothesis comparison using encoder-classifier model,” in Proc. of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018), April 2018.
    [2] 小川厚徳,デルクロア・マーク,苅田成樹,中谷智広,“一対一の仮説比較を行うencoder-classifierモデルを用いたNベスト音声認識仮説のリスコアリング,” 日本音響学会2018年春季研究発表会講演論文集,1-8-9,March 2018.

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

展示代表者

小川 厚徳
小川 厚徳
メディア情報研究部