[Japanese|English]
音声認識を格段に発展させ、「コンピュータの耳」と呼べるレベルにまで高めることが私たちの目標です。音声認識は入力された音信号から音声区間を特定した後、有効な特徴を抽出し、予め学習・蓄積された、音声の特徴に関する知識(モデル)を用いて、入力音声に最も適合する単語の列を探し当てること(探索)で実現されます。音声は、たとえ同じ発話内容でも、話者や周囲の音環境等の違いにより、異なる音信号として観測されます。また、日常会話に現れるような話し言葉において、音声の振る舞いは、きわめて多様であり、伝達される情報も複雑で繊細なものになります。人間は無意識に、このような多様性を巧みに吸収し、曖昧性・不完全性を補いながら複雑な情報をキャッチしているのです。そんな人間の耳に匹敵する認識能力をコンピュータ上に実現すべく、私たちは研究を進めています。
音声認識の応用範囲は、既に携帯端末での音声情報検索、音声による家電・住宅機器の操作、会議録の作成支援、映像コンテンツ用字幕の自動作成等、多岐にわたっています。将来、コンピュータが人並みはずれた耳を持つことで、悪条件下でもスムーズに話を理解し会話するロボットが生まれるかもしれません。さらに、コンピュータが得意とする高速なデータ処理能力を駆使すれば、膨大な音データを瞬時に解析し、その内容を整理・要約さらには翻訳することも可能になるでしょう。人と共生するロボットの耳として、日常のあらゆる音データから知りたい情報を発見するマイニングツールとして、高度な音声認識は人々の暮らしに欠かせない存在となっていくでしょう。このように様々な用途に音声認識を使えるようにするためには、音声の分析、モデルの学習、認識(探索)アルゴリズム等、個々の要素技術を益々高度化していかなければなりません。
近年、深層学習の登場により、音声認識の精度は飛躍的に向上しました。しかし、現在の技術をもってしても、例えば、人と人のカジュアルな会話を正確に認識することは容易ではありません。深層学習により、個々の音素の識別や各単語のつながりやすさの予測は高精度化できましたが、より高次の特徴や知識を用いて、音声の曖昧性や不完全性を補うことは、まだ、十分にはできていません。より利便性の高い音声認識の実現を目指し、私たちは、音声の音響的特徴や言語的特徴、さらには会話の話題などを同時に一体的にとらえて識別する深層学習技術や、話者や収録環境の違いを瞬時に識別して深層学習のモデルを追随させるモデル適応技術など、最先端技術の研究を進めています。また、音声翻訳や音声対話など、音声認識を含むメディア処理全体を一体化して最適化する深層学習技術の研究を進めています。
様々な場面で利用される音声認識は、複数人による自由な会話や幅広い発話内容に対して、高速、省メモリで動作することが求められます。さらに、音声を文字化するだけでなく、発話した話者、話題、雰囲気の情報や、認識結果の信頼性等を併せて出力することが必要です。私たちは、WFSTと深層学習を利用した独自の方法により、1000万語という膨大な語彙をカバーしつつリアルタイムで動作する音声認識を実現しました。また、会話の話題を追跡する言語モデル、認識結果の信頼性や認識誤りの原因を推定する技術等も研究しています。