雑音・残響の中で人の声を聞き取る

[Japanese|English]

音によるコミュニケーションシーンの分析

音声は、多くの人にとって、最も自然で使いやすいコミュニケーション手段の一つです。コンピュータが、私たちの生活環境(実環境)において音声を適切に収音し柔軟に処理することができれば、より快適で安心な音声サービスを提供できるようになると期待されます。しかし、実環境において、話者から離れたマイクロホンを用いて収音した音声には、背景雑音や残響が混ざってしまいます。これは、現在の音声サービスの性能を格段に低下させます。この問題を克服するため、私たちは、雑音や残響を含む音の中から、自動的に音声を特定(シーン分析)し、もとの音声の品質を回復(音声強調)する技術の研究をしています。そして音声強調の基盤技術を確立し、誰が・いつ・どのような部屋の・どこで・何を話したかといった人のコミュニケーションシーンの情報を自動的に抽出しつつ、各音声を適切に処理できる技術の実現を目指しています。

将来どのように使われるのか

図:高機能収音技術のイメージこれまでは、背景雑音や残響の影響を極力少なくするために、接話型のマイクロホンが広く用いられてきました。しかし、マイクロホンに近づいて話さなければならないことは、状況によっては煩わしさを伴います。これに対し、コミュニケーションシーンを自動的に分析し、各音声を高い精度で抽出する技術を確立すれば、マイクロホンを意識しないで自由な場所から話すことができるようになります。さらにコンピュータによる音声認識と組み合わせることで、例えば、リモコン代わりに音声を使って家電製品をコントロールしたり、自由に動き回るロボットと自然にインタラクションしたりすることが可能となります。また会議の議事録を自動的に作成するシステムにおいて、各参加者に1つずつマイクホロンを用意する必要がなく、部屋やテーブル上などに自由にマイクロホンを設置できるようになります。さらに人と人との会話においても、雑音や残響を除去して音声の明瞭性を高めることは重要です。例えばテレビ会議や携帯電話への応用が考えられます。

会議シーンにおける話者区間推定

図:話者区間推定技術

より快適な音声コミュニケーション環境構築のためには、コンピュータが周囲の音環境を自動で理解する技術が重要となります。そこで私たちは、会議などで複数の人が会話をしている中から「いつ誰が話したか?」を推定する、話者区間推定(ダイアライゼーション)技術の研究をすすめています。本技術を用いると、各話者の音声を認識するための認識対象区間を精度よく推定したり、対話エージェントが会話の流れをとらえ、タイミングよく発言したりできるようになります。

音声らしさの学習に基づく音声強調

図:音声モデルに基づく音声強調

雑音除去や残響除去などの音声強調技術は、音声認識システムを日常の環境で使えるようにするためのキーテクノロジーです。従来から様々な音声強調方法が提案されてきましたが、その処理音声の性質は音声認識で用いられる音響モデル※と必ずしもマッチせず、高精度な音声認識に直結はしていませんでした。これに対し、私たちは、音声の確率モデルを用い、出力音声がより音声らしくなるように処理を制御しながら音声強調を行う方法を検討しています。

※音素毎の周波数パターンを表した、音声の確率モデル

音響信号処理の統一的基盤

図:混合音の音響的分解

私たちが普段聞く音は、別々の場所で生じている様々な音の集合です。私たちの研究グループでは、そのような複雑な音を、個々の音源から生じている音と空間中での音の伝わり方(音源の方向、残響)とに自動的に分解する技術を検討しています。この技術は、雑音除去、残響除去、音源方向推定などの色々な音響信号処理を統一的に行う基盤となります。私たちは、この理論基盤を構築するとともに、会議音声の収録のような現実的なシナリオにおいても、各話者の音声、残響、音源方向を同時に推定する方法を考案しています。

関連する研究内容