概要
深層学習を用いて被写体を学習させることで、様々な環境における様々な見た目の被写体を柔軟に抽出が可能です。比較的シンプルな講演中継などの場面だけではなく、照明が変化するような舞台芸術のシーンにおいても、所望の被写体のみをリアルタイムかつ精緻に抽出します。
背景・従来課題
映像中の特定の被写体を分離する被写体抽出技術は、コンテンツ制作や映像コミュニケーション分野への応用が可能であり、多くの取り組みがあります。NTTでは、舞台芸術等をはじめとするエンターテインメント分野や、講演中継などのエンタープライズ分野、競技会場で行われる試合中継などのスポーツ分野において、あたかも演者・競技者が視聴者の目の前にいるかのような高い臨場感が得られる通信技術の研究開発を進めてきました。被写体抽出技術はその中核技術の一つとして位置付けています。任意の背景下で撮影した映像から、リアルタイムかつ精緻に被写体のみを抽出することは非常に難易度が高いため、単色の背景(グリーンバック等)を用いて撮影する方法が一般的ですが、本技術は、深層学習によってあらかじめ抽出対象となる被写体を学習させることで、これを可能としています。
本技術のアドバンテージ
- 深層学習を用いることにより、背景変化に対して頑健で境界領域が精緻な被写体抽出を実現
- 独自のアルゴリズムにより、解像度がFull HDから4K UHDの映像に対して高速な被写体抽出が可能
利用シーン
- 舞台の映像から役者だけを抽出し、別の実写映像やCG映像と組み合わせることで、舞台における新しい映像演出に活用
- スポーツ競技の映像から選手だけを抽出し、実物大で表示可能なステージに投影することで、現場さながらの感動を共有
- 放送やエンターテインメント等の映像制作において、クロマキー用スクリーンの設置が困難な場所で撮影した映像に適用し、被写体抽出映像の制作を効率化
- 講義や基調講演などのシーンにおいて登壇者のみを抽出し、別会場のスクリーンへの投影や別映像との合成により、遠隔地での視聴体験の質を向上
解説図表
用語解説
「教師データ/教師画像」
機械学習の分野において、あらかじめ与えられる例題と正解のデータの組み合わせを指します。一般に、ある例題(入力)に対してAI(ニューラルネットワーク)が出力する結果を、正解と照らし合わせる処理を大量の教師データで行い、各出力と正解との誤差が小さくなるように最適化を行うことを学習と呼びます。
担当部署
人間情報研究所 サイバー世界研究プロジェクト