[Japanese|English]
ヒトは写真を見れば経験や知識から奥行や写真のどこがボケているかを推定することができますが、コンピュータにはそうした経験や知識がないため容易ではありません。これに対して、本研究では、カメラの絞りにおける光学系を考慮した深層生成モデルを新たに構築することで、世界で初めてWeb上の画像のような一般的な写真群のみから未知の奥行とボケ効果の学習を可能にしました。
一般的に、奥行やボケ効果を推定する三次元推定器を学習するためには、深度カメラやステレオカメラなどの専用機器で三次元情報を収集する必要がありました。これに対して、本技術で学習に必要なデータはWeb上で見かけるような一般的な写真群だけであり、奥行やボケ効果の情報は必要ありません。この学習条件下で三次元表現を学習するため、本研究では、画像生成の過程にカメラの絞りレンダリング機構を組み込むことを提案しました。このようなモデルを用いることで、学習データとして与えられた画像の分布だけではなくその奥に潜む三次元情報の分布も学習可能にし、画像だけではなく対応する奥行の生成及びボケ効果の制御も可能にしました。
実験では、提案モデルでは奥行推定しながらボケ度合とピント位置を自在に制御できることを確認しました。具体的には、提案モデルでは、絞りの大きさを変えることによってボケ度合の強弱を調整することができ、さらに、ピント位置を変えることによって焦点の合う対象を変えることができます。
私たちは三次元世界で生活をしており、ヒトと親和性の高いコンピュータを実現するためには三次元世界を理解可能なコンピュータの実現が不可欠です。本技術は学習に必要なデータの収集コストを削減し、三次元情報を活用した様々な応用上の障壁を低減できるものであり、コンピュータによる三次元世界の理解において新たな可能性を切り拓く技術であると期待しています。
金子 卓弘 (Takuhiro Kaneko)
コミュニケーション科学基礎研究所 メディア情報研究部 メディア認識研究グループ