研究展示

メディアの科学

声と画像から知らないモノを学びとるAI

～音声と画像によるクロスモーダル概念獲得～

どんな研究

AIがモノを認識するためには、モノの見え方とその言語表現（名前）を紐付けた辞書が必要です。この展示では、画像を説明する音声データだけから、モノが映る画像領域と声による言語表現を教師ラベルなしで対応付けて、AIが知らないモノを自ら学び取る（辞書を自動作成する）技術を紹介します。

どこが凄い

日本語音声データセットを新たに構築し、既存の英語／ヒンディ語音声と合わせて、画像との潜在空間を深層学習することで、従来よりも精度良く、画像領域と言語表現が紐付けられることを確認しました。この手法により、画像を通じて異なる言語の単語翻訳知識が学習されることも大きな特徴です。

めざす未来

TV放送のような世の中に多く存在するメディアデータを与えるだけで、AIが音と映像の共起（時空間的な偏り）を見つけながら自律的にモノやコトの概念を学び、賢くなる未来を目指しています。音や映像、言語を自在に横断する超大規模アーカイブ検索や自動アノテーションなどへの応用を検討しています。

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

大石康智(Yasunori Ohishi) メディア情報研究部　メディア認識研究グループ
Email:

講演：山田武士 (所長講演)| 為末大 × 柏野牧夫 (特別対談) | 柏野邦夫 | 丸谷和史 | 服部正嗣

研究展示：1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
前へ | 次へ

研究展示

メディアの科学

関連文献

ポスター

当日の様子

連絡先