更新日:2015/02/12

    ロバストメディア探索技術「RMS」NTTコミュニケーション科学基礎研究所

    背景・従来課題

    音・映像・画像などの「メディア情報」の流通が飛躍的に増大しているメディア情報爆発の時代を迎え、キーワードなどのメタデータに依存することなく、音・映像・画像の中身に基づいてメディア情報を高速に特定したり検索したりする必要性が急速に高まっています。従来技術では、パワースペクトルなど、全体的な特徴同士を照合していただめ、雑音や変動の影響を受けやすいという課題がありました。

    概要

    カメラで撮影した画像・映像やマイクで捉えた音の信号の断片を探索のキーとして、多数の映像や音楽やランドマークを格納したデータベースから一致するものを見つけ出し、その名前や関連情報を引き出すことができる技術です。

    本技術のアドバンテージ

    • 画像、映像、音の信号から抽出した特徴データを活用
    • ・雑踏中のBGMの曲名特定が可能なロバスト性
    • ・膨大なメディアデータを瞬時に探索できる高速性
    • ・画像片隅のランドマークを認識できる精度の高さ
    • カメラやマイクから入力されたデータとデータベースを連続的にオンラインで高速照合し、特定された対象にリンクする関連情報をタイムリーに表示

    利用シーン

    • 言葉のわからない外国でのカメラやマイクを使った情報検索
    • スマホやメガネ型端末を使った街中や観光地の情報検索
    • 録音・録画された膨大なメディアデータからの必要情報の探索

    解説図表

    技術解説

    蓄積された膨大な音や映像データの中から、目的の音や映像を高速に探索する技術です。5秒から15秒程度の短い音や映像の断片を問い合わせとし、その特徴データから、音や映像のデータベースを検索し、特徴の合致するコンテンツを特定して、それに付随する情報を引き出すことが出来ます。このような技術を「メディア探索技術」と呼んでいます。
    NTTコミュニケーション科学基礎研究所では、1998年に時系列アクティブ探索法、2000年に学習アクティブ探索法というメディア探索技術をそれぞれ開発してきました。ロバストメディア探索技術は、それらの性能を大幅に向上させたものです。特に、音や映像の品質が大きく変化している場合にも高い精度で動作する工夫を施している点が特徴です。これにより、音や映像の圧縮やフォーマット変換はもちろん、たとえば、目的とする音が他の大きな音の背景で用いられていたり、映像の一部が遮蔽されていたりする場合などにも、高精度の照合が可能です。
    本技術は、その核心部分をサーバモジュールとしてモジュール化しており、これにより、様々なアプリケーションにこの技術を組み込むことができます。たとえば、音や映像の投稿サイトにおける権利チェックシステム、放送における音楽やCMのリアルタイム検出システム、携帯電話などでとらえた音楽の断片からの音楽情報検索サービスなどへの応用が可能です。

    用語解説

    アクティブ探索法
    NTTが1996年に開発した画像中の物体探索技術です。ある画像中に、特定の物体が映っているかどうかを高速に探索することができます。
    時系列アクティブ探索法
    NTTが1998年に開発した音や映像の探索技術です。アクティブ探索法における高速化手法を、音や映像といった時系列データに適用し発展させたものです。特定の音や映像が長時間の音や映像のどの時点にあるかを高速に探索できます。
    ロバスト
    加工・編集・圧縮などによる音や映像の変化に影響されにくい性質をロバスト性と言います。ロバストメディア探索技術では、小型カメラでスクリーンを撮影した低品質の映像からスクリーン上の映像コンテンツを特定したり、同時に複数の音楽が流れているときにその音楽のそれぞれの曲名を特定したりできます。

    担当部署

    NTTコミュニケーション科学基礎研究所 メディア情報研究部

    関連するコンテンツ