会話の流れを読んでみんなの声をうまく認識

～頑健な音声処理を可能にする複数人発話区間推定技術～

概要

現状の音声認識は、一人の人がスマホやロボットにかなり意識して話しかける利用の仕方がほとんどです。これに対し「いつ誰が何を話したか」を高精度に自動推定できれば、複数の人と人とが話す自然な会話の中に入って来られるようなスマホやロボットができるでしょう。
本展示では、複数人の会話音声から「いつ誰が話したか」を精度よく推定する発話区間推定技術を紹介します。また「何を話したか」の推定、すなわち音声認識の認識率向上のための技術として、各話者の発話区間音声から適切に雑音を除去する技術や、発話区間や話者交替の情報を使った言語モデルなどについても合わせて紹介します。

当日の様子

ポスター

ポスターの画像をクリックすると、PDFファイルが開きます。

展示担当者

荒木章子
メディア情報研究部

伊藤信貴
メディア情報研究部

小川厚徳
メディア情報研究部

木下慶介
メディア情報研究部

樋口卓哉
メディア情報研究部

中谷智広
メディア情報研究部

講演：酒井崇匡 (招待講演) | 前田英作 (所長講演) | 岩田具治 | 金子卓弘 | 柏野牧夫 | 佐藤尚 |
研究展示：1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 |
前へ | 次へ