[Japanese|English]
メディア情報爆発の時代を迎え、キーワードなどのメタデータに依存することなく、音・映像・画像の中身に基づいて高速にメディア情報を特定したり検索したりする必要性が急速に高まっています。メディア探索技術は、音や映像の断片そのものに基づいて、目的とする情報を検索する技術です。このようなメディア探索技術においてまず重要なのは、信号の変形に対する耐性(ロバスト性)です。音や映像などのメディア信号は、画質や音質の劣化、編集や加工などによって信号が大きく変化していることが多く、そのような状況下でも目的とする情報を正しく特定する必要があるからです。また、もう一つの重要な観点は処理速度です。メモリやストレージの大容量化や低価格化により、個人でも容易にメディアデータを作成してインターネットなどに公開することが可能になっており、実際、投稿サイトにおけるメディアデータは日々数十万件以上にも及ぶペースで増加しています。このような膨大なメディアデータを探索対象とするためには効率的な処理が必須になります。私たちは、以上のような観点から、同一メディアの高速探索と、様々な属性に着目した高機能なメディア探索の研究を進めています。
音や映像を直接探すメディア探索は、音声検索やキーワード検索と並んで重要な情報検索手段の一つとなると考えられ、例えば、スマートフォンでとらえた音や映像による情報検索(右図)などに利用されます。それだけではなく、私たちは、メディア探索技術が、メディア情報の世界規模での流通基盤として普及が予想されるメディアクラウド(大量のメディアデータがネットワーク上に蓄積された、制作・配信・視聴のためのプラットフォーム)において、制作、配信、視聴の各場面において、メディアデータの各部分と人手で与えたメタデータなどとを関連付けたり、またメディアデータどうしをその部分的な類似性や引用関係などによって関連づけたりするための基盤技術となることを想定しています。このように、メディア探索技術は、地球上に膨大に蓄積されつつあるメディア情報を、的確、適正、かつ有効に活用するための鍵になる技術なのです。
「ロバストメディア探索技術」では、音・映像の特徴を直接照合するのではなく、特徴の時空間表現の中で判別能力の高い特徴的な局所領域を選択し、それを粗く数値化した上で、特徴の時空間的整合性を活用して候補を効率的に絞り込む方法をとることで、極めて高いレベルの高速性、ロバスト性、および判別性を実現しました。さらに、ネット上のメディアコンテンツの特定、放送番組における背景音楽の特定など、実際のフィールドでの適用経験もふまえながら性能を高め、大幅な高速化と高精度化を達成しました。
メディアリンク解析は、大量のメディアデータどうしの引用関係に基づいて自動的に情報を付与する技術です。例えば、多チャンネルのテレビ放送を同時に録画した大量のメディアデータに対し、最新の録画データとそれまでに蓄積したデータを比べ、一致する部分を検索し、リンクを付与します。リンクを数えることで使用回数がわかります。録画データが増えるたびに、リンク解析を繰り返すことで、全てのメディアデータの使用回数がわかり、最も使用回数の多いデータに「人気がある」などの情報を付与することができます。
本技術は、画像の中から目的画像との一致箇所を検出するものです。提案法では、これまでの手法と同様に、大まかな分割領域から細かな分割領域まで解像度を変えながら比較しますが、その際、画像の内容に応じて、適応的に分割領域の大きさ及び比較する順序を設定します。また、最適位置の検出を保証しながら、画像上の検出候補となる位置を効率的に絞り込みます。これらの工夫により、従来手法と比較し、平均で170倍・最高で600倍という大幅な高速化を実現しました。