研究展示

メディアの科学

16

少量の入出力ペアから高精度に音声認識を学習

音声合成を活用した半教師ありEnd-to-End学習

どんな研究

音声認識は音声を書き起こした文字列へ変換する仕組みです。音声認識モデルの学習用に人手で用意する対応付いた音声と文字列のペアデータが少ない場合、高精度なモデルの実現は困難でした。この研究ではペアではない音声のみ・文字列のみのデータも活用できる学習方法を提案します。

どこが凄い

音声認識モデルと音声合成モデルの構造が似ていることに注目し、二つを組み合わせて音声・テキストのみで学んだ特徴量と音声認識の特徴量が近づく≒音声認識に活かせる半教師あり学習を実現しました。実験では少量のペアデータのみで学習する場合と比べて、文字誤り率を半分に削減しました。

めざす未来

既存の方法よりも少ない音声と文字列の学習用ペアデータで高精度な音声認識モデルを学習できます。将来的には、マイナーな言語や大量に準備しにくい音声(子供など)といったペアデータがほとんど得られない環境の音声認識など、より挑戦的な場面で活用できる技術の実現を目指します。

関連文献

  • [1] S. Karita, S. Watanabe, T. Iwata, A. Ogawa, M. Delcroix, “Semi-supervised end-to-end speech recognition,” in Proc. Interspeech, 2018.
  • [2] S. Karita, S. Watanabe, T. Iwata, M. Delcroix, A. Ogawa, T. Nakatani, “Semi-supervised end-to-end speech recognition using text-to-speech and autoencoders,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) , 2019.

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

苅田 成樹(Shigeki Karita) メデイア情報研究部 信号処理研究グループ
Email: