[Japanese|English]
非侵襲なアクティブ音響情報計測により、可視光カメラを用いずに人物の三次元姿勢を推定する手法を考案しました。計測対象の人物を挟むようにスピーカとマイクを設置し、スピーカから発した音が人物に遮られる際の微細な音場の変化から、人物の三次元姿勢を推定することができます。
人物の三次元姿勢推定は、ビデオカメラで撮影された映像を用いることが一般的です [Cao+ TPAMI2019]。しかし、夜など可視光が十分に届かない環境での利用は難しく、顔なども撮影されることからプライバシーの問題も生じます。
プライバシーの問題を回避する方法として、無線電波を用いる手法も知られています [Zhao+ CVPR2018] が、病院や飛行機内など電波の利用が制限される環境では利用できません。
これに対して、本手法では、従来技術が利用できない環境でも使用可能であり、プライバシーの問題を回避することができます。さらに、姿勢推定のためにユーザが特定のデバイスを装着する必要もなく、市販のスピーカとマイクがあれば十分です。
提案手法では、経過時間に依存して周波数が変化する time stretched pulse (TSP) をスピーカから発し、全周360°で空間音を録音するアンビソニックマイクで計測対象の人物を通過した音を集音します。集音した音から基本的な特徴を抽出し、畳み込みネットワークにより三次元姿勢を推定します。また、計測対象の人物を特定できないようにする敵対的学習を導入することで、人物に依存せずに安定した姿勢推定を可能にしました。
本研究に代表されるように、計測された後の画像・音声などの信号を処理するだけではなく、計測・信号処理・モデル化・認識理解までを一体として考え同時に最適化することで、実世界のあらゆる状況・事象を認識・表現可能な技術の確立をめざします。
木村 昭悟 (Akisato Kimura)
コミュニケーション科学基礎研究所 メディア情報研究部 メディア認識研究グループ
(本内容は慶應義塾大学との共同研究による成果です)