更新日:2019/09/01
近年のAI(人工知能)の発展を支える立役者は深層学習の技術です。例えば、さまざまな物体を撮影した画像と「りんご」「みかん」といった物体の名前(クラスラベル)とを組(ペア)にしたデータを大量に用意して深層学習を行うと、画像中の物体が何であるかを高い精度で認識できるようになることが知られています。その優れた特性のためにさまざまな分野で研究や活用が進む深層学習ですが、私たちが特に着目している能力の1つは、異種のメディア情報(例えば、画像と音)の対応付けができることです。画像、音、テキストといった情報の種類のことをモダリティ(modality)と言いますので、異なるモダリティにまたがる情報の対応付けをクロスモーダル(crossmodal)情報処理と呼ぶことにします。このクロスモーダル情報処理とはどのようなもので、どんなメリットがあるのでしょうか。
(1) 音から画像をつくる
クロスモーダル情報処理のメリットの1つは、異種のメディア情報が対応付けられた共通の場所である「共通空間」を介することで、従来では考えられなかったような情報の変換が可能なことです(図1)。その1つとして、私たちの研究チームでは、音から画像を推定する課題に取り組んでいます。
私たち人間は、目を閉じていても周囲の音からその場の情景を思い浮かべることができます。そこで、マイクで拾った音からその場の情景を表す画像をつくってみようというわけです。例えば、室内に複数のマイクを設置し、数人の会話を数秒間録音します。4本のマイクを用いたとすると、それぞれのマイクでとらえた音の周波数成分の時間変化を表す「スペクトログラム」が4枚と、音の到来方向を表現した「角度スペクトル」の情報が1枚得られますので、これらをシステムに入力します。システムでは、これらの情報をそれぞれニューラルネットワークで処理し、低次元の空間にマッピングします。その情報を基に、ニューラルネットワークを用いて画像をつくり出します。この画像には、室内のどの場所でどのような属性の人物が発話しているかが表現されていますので、室内の大まかな様子を把握することができる、というわけです(図2)。このように、いったん入力を低次元空間にマッピング(エンコード)して、そこから高次元の情報を生成(デコード)する処理は、一般に「エンコーダ・デコーダモデル」と呼ばれ、入出力のペアを学習用データとして与えることで、深層学習によって構成することが可能です。
NTTコミュニケーション科学基礎研究所では、現在までにシミュレーション実験や実際の音を発する物体を使った実験を行って、一定の条件下で、どこに何があるかを画像として示すことが実際に可能であることを確認しています(1)。このような音から画像への変換は、これまで試みられたことがない新しい情報処理を提案したものとなりました。この技術が発展すると、カメラを置くことが望まれない場所やカメラがとらえきれない状況(物陰や暗闇など)での安全確認などにも応用できると考えています。
(2) 物音を言葉で説明する
異種情報の変換のもう1つの例は、音からテキストへの変換です。音声認識システムを用いると話し言葉をテキストに変換できますが、これまでの音声認識システムでは、話し言葉以外の物音などを適切なテキストに変換することはできませんでした。これに対し私たちは、マイクで拾った音から、その音を表現する擬音語や、その音を記述する説明文を生成する技術を開発しました(2)。
条件付系列変換型説明文生成法 (CSCG: Conditional Sequence-to-sequence Caption Generation)と呼ぶこの手法も、エンコーダ・デコーダモデルに基づいています(図3)。今度は系列から系列への変換(系列変換)を行います。まず、入力音響信号から抽出した特徴を時系列としてニューラルネットワークでエンコードし、低次元空間にマッピングします。次に、その情報からニューラルネットワークで音素系列(擬音語)または単語系列(説明文)をデコードします。
説明文の生成においては、どのような説明文を生成するのが適切かは場合によって異なり、唯一の正解を定めることはできません。例えば、「車が近づいている、危ない」といったように端的に短文で表現すべき場面もあれば、車種や車速などによるエンジン音の微妙なニュアンスの違いを詳細に表現したい、といった場面も考えられます。このような要請にこたえるため、デコーダの働きを「詳細度」と呼ぶ補助入力で制御し、表現の詳しさ(説明文に含まれる単語の持つ情報量の和)を調節できるようにしました。小さな値の詳細度を指定すると端的な説明文を生成し、大きな値の詳細度を指定するほど、より具体的で、より長い説明文を生成するようになります。所定の条件における実験において、擬音語生成では人手による擬音語よりもむしろ受容度(あてはまっていると判断される割合)が高い擬音語の生成が可能であること、説明文生成や詳細度の制御も有効に機能すること、などを示しています。
本技術は、動画や実環境に対する字幕生成や、メディアの検索などに有効であると考えています。従来、音に対して「発砲音」「叫び声」「ピアノの音」などといったように既知のクラスラベルを与えることは試みられていました。しかし、画像の場合に比べても、音の場合には、音の信号と「何の音か」との対応が明らかであるとは限らず、「何かは分からない初めて聞くような音」に遭遇することは日常少なくありません。このような場合にはクラス分類だけでは有効性に限界があります。また、本技術では、音と説明文とが紐付くことにより、説明文による音の検索が可能となります。実際、共通空間においては音と擬音語や説明文との間の距離を直接測定することができ、擬音語や説明文を用いて音を検索することが可能です。このような場合、目的とする音のニュアンスを説明文で詳しく指定したい場合もあるでしょう。本技術を用いると、「車」「風」などといったクラスラベルだけではなく、音の高さや大きさ、変化の様子なども含めて、文字によって目的の音を指定することが可能になります。このような、音に対する説明文の生成も、私たちが世界で初めて提案した情報処理です。
クロスモーダル情報処理のもう1つのメリットは、「共通空間」において異種情報の対応を見出すことで概念獲得が可能になることです。深層学習に必要とされる大量のデータの準備には、手間がかかったり、データの入手自体が難しかったり、クラスラベルの付け方を事前に設計することが難しかったりといった困難さを伴うことが少なくありません。そこで私たちは、メディア情報の中に含まれるひとまとまりのもの、つまり概念を自動的に獲得し、認識や検索に活用することをめざした研究に取り組んでいます。…