この声、何歳?
話者クラスタリングを用いた深層話者属性推定
どんな研究
音声から発話者の年齢や性別といった話者に関する情報を推定する研究です。顔画像や動画といった視覚的な情報からこれら情報を高い精度で推定する手法は既にいくつか知られていますが、音声のみしか利用できない場合、最新の深層学習技術をもってしても未だ解決が困難な問題です。
どこが凄い
高精度な年齢推定を行うためには各年代の話者の膨大な学習データが必要です。しかし実際には年代毎にデータ量の違いがあり、特にデータが少ない年代の推定が困難でした。そこで、声が似た他の話者の推定結果を用いて補正することで、従来よりも高い精度で年齢推定できる技術を考案しました。
めざす未来
本技術は年齢のみならず感情など話者に関する様々な属性推定へ応用できます。今後は、各属性推定のための深層学習モデルと共に更なる性能改善を行い、話者属性を推定する汎用的な枠組を実現し、ユーザに特化した新たな音声インタフェース開発やマーケティングへの応用をめざします。