[Japanese|English]
高度なメディア情報処理を実現するための新しい音響信号モデルの構築を目指しています。音響信号処理では様々な信号モデルが用いられていますが、従来より高い精度、従来に無い新しい機能を実現したり、実世界の多様な音響信号を広く対象としたりするためには、事前に得られる情報が不完全な場合や、対象とする信号が処理の前提に完全には適合していない状況をも想定した処理の体系を新たに組み立てる必要があると考えられます。また、音声認識や音楽認識は依然として重要な課題ですが、音響信号から、意図・感情・ニュアンスといった、必ずしも言葉や音符には表れないような情報を抽出することも、今日の重要な課題となっています。私たちはこのような認識に立って、(1)音響信号から自動的に目的信号を聴き分ける処理と、目的信号の特徴や構造を学習する処理を繰り返しながら成長していく音響信号処理システムの実現を目指した「スパース信号処理モデル」と、(2)音声や歌声に含まれる多様な情報を体系的に分析・抽出することを目指した「音声生成過程モデル」および「歌唱の基本周波数軌跡生成過程モデル」の研究を行っています。
スパース信号処理モデルは、音源分離、雑音除去、音楽信号の自動採譜、帯域拡張、サンプル欠けの復元などの問題の解決に大きな効果を発揮すると期待されます。とりわけ、私たちの開発した「複素NMF(Non-negative Matrix Factor-ization)」という手法は、スペクトルパーツからなる信号モデルが時間領域で立てられる点において従来法よりも正確なモデルであるばかりでなく、時間領域で展開されてきた既存の信号処理技術にスムーズに組み込むことができるという著しい特長があります。これにより、例えば、従来よりも飛躍的に高性能・高機能なブラインド音源分離が実現できる可能性があります。また、「音声生成過程モデル」や「歌唱の基本周波数軌跡生成過程モデル」を応用すれば、音声の信号から発話内容と意図・感情・ニュアンスを同時に汲み取ったり、歌声から個性を抽出したりといった新しい情報処理が可能になります。
従来手法であるNMFモデルでは、音響信号処理への適用にあたり、振幅スペクトルが加法的であるという近似を用いていたため、既存の信号処理との適合性に限界がありました。そこで私たちは、その原理を根本から再構築し、時間領域でパーツ獲得機能を実現した新しいスパース信号処理の枠組みである「複素NMF」と呼ぶ新手法を考案しました。
本研究の音声生成過程モデルでは、音声を特徴づける重要な二つのファクターである音韻(母音の種類などに相当)とイントネーション(抑揚、イントネーション、発話のリズムなどに相当)の生成過程を物理モデルおよび生理学的知見に基づいてそれぞれ確率モデル化し、さらにこれらを階層モデルにより統合化する、というアプローチにより音声信号の統計モデルの確立を目指しています。また、歌唱の基本周波数軌跡生成過程モデルでは、歌声の音の高さの時間変化をモデル化することで、楽譜に記載される情報と記載されない情報(歌い方の個性や音楽表現など)を同時に抽出することを目指しています。