マルチモーダル情報による人物行動認識

対話状況を理解する環境知能に向けて

人間とのインタラクションを前提とする様々な情報システムは、最終的に人間（ユーザ）への適切な働きかけを持ってその出力とします。私たちの目指す「環境知能」がユーザに自然に受け入れられるためには、人間に対する情報提示や応答などの働きかけを、いかに適切に行なえるかが一つの鍵となります。そのためには、人間側の状況を無視して一方的な働きかけをするのではなく、人間の状況を適切に認識して、その状況に合ったやり方をとる必要があります。環境知能と人間のインタラクション（＝相互作用）において、人間の状況を認識することは必須機能の一つと言って良いでしょう。そこで私たちは、人間の状況、特に行動とそこから読み取れる内面の情報を認識することを目標において研究を進めています。このためには、画像、音声、その他、さまざまなメディアの情報を扱い、必要な情報を検出・抽出し、それらの統合的な処理により、目的となる人間の行動や状態を推定・認識していくことが必要です。具体的には、以下に挙げるいろいろなレベルの要素技術やそれらの統合のためのモデル化技術、認識・推定の技術が必要となります。

画像から人の顔を検出
画像から人の顔向きを推定
音声から人の発話区間を推定
音声の方向から発話者を推定
画像から人の顔表情を推定
画像から人の動作を推定
対話状況での人の顔向きと発話者を推定
発話区間から、対話の構造を推定
顔表情、動作と音声から人の感情を推定

将来どのように役に立つのか

人間の行動や状態を正しく認識することは、環境知能が人間とコミュニケーションをするにあたって、人間の状況に合わせて適切なタイミングとやり方をとることに役立ちます。また、後から過去の記録を呼び出すときにも重要な情報となりますし、遠隔地を含むコミュニケーションの適切な支援にも役立つでしょう。人間の行動や状態を正しく認識することは、環境知能が人間とコミュニケーションをするにあたって、人間の状況に合わせて適切なタイミングとやり方をとることに役立ちます。また、後から過去の記録を呼び出すときにも重要な情報となりますし、遠隔地を含むコミュニケーションの適切な支援にも役立つでしょう。

概要

コミュニケーションシーン分析の重要な課題の一つとして、複数人対話の場面における対話者間の『共感』と『反感』に焦点をあて、それらを顔表情や視線といった非言語情報から自動的に認識・推定する技術の研究を進めています。

共感分析モデル

対話者ペアの共感／反感の状態と、各対話者の視線や表情との間の関連性を数理的にモデル化しました（右図）。ここでは人間の感情の曖昧性・不確実性に対処するため、共感／反感の状態を確率分布として表現し、ベイズ推論の枠組みで推定を行う方法を提案しました。また、コミュニケーションにおいては、他者への感情の伝達と解釈の側面が重要であることから、複数の外部観測者による感情の解釈の分布を分析し、対話者ペアの顔表情の共起関係をモデルに組み入れている点に特色があります（右図のマトリクス）。

顔表情の分析

目や口といった顔部品の移動や歯が見えているなどの画像の輝度情報を利用して、対話者の表情（無表情、微笑、苦笑など）を自動的に認識します。また、複数の外部観察者による表情や共感／反感のラベル付けも行っています。

共感／反感の推測とその評価

本手法をもとに第三者が共感／反感と解釈する確率を推測した結果の一例（ある瞬間）を右図に示します。二者の間の棒グラフ中のそれぞれの色付きのバーが、共感／反感／どちらでもない確率を表します。このような結果の評価方法として、推定結果の確率分布と、複数の外部観測者の解釈の分布とを照合する方法を考案したことで、曖昧で不確定な感情を定量的に評価・検証することが可能となりました。