音声認識技術

音声を深く理解し、活用する

音声を文字に変換する音声認識技術は、スマートスピーカの普及など近年身近な技術になってきました。その裏には、End-to-End型音声認識モデルによる目覚ましい精度改善があります。しかし、話し方や周囲の環境(雑音や音声の回り込み)、処理を行うコンピュータの能力など、さまざまな状況・制約下で高い精度を維持することは容易ではありません。私たちは基盤的な音声認識技術の深化に加え、限られた学習データで高い認識精度を実現するための自己教師あり学習技術や、人間でも聞き取りづらい音声を聞き取りやすく強調する音声強調技術の研究にも取り組んでいます。さらに、音声を文字として正しく認識するだけではなく、音声から話し手の感情などの内面を推定する技術にも取り組んでおり、広く人間とコンピュータ、人間と人間とのコミュニケーションをより豊かにするための研究開発を進めています。