更新日:2019/09/01

    人に迫り、人を究め、人に寄り添う ―― デジタルとナチュラルの共生・共創に向けて
    山田 武士(やまだ たけし)
    NTTコミュニケーション科学基礎研究所
    所長

    NTT技術ジャーナル2019年9月号:特集「デジタルとナチュラルの共生・共創を支えるコミュニケーション科学」より

    はじめに

    最近のAI(人工知能)技術の発展にはめざましいものがあります。もともとコンピュータは人間が処理できない大量のデータを一度に処理し、人間が苦手な処理を人間に代わって高速に処理するのが得意です。しかし特に深層学習の発展のおかげで、本来人間が得意で、なかなかコンピュータが追いつけなかった音声や画像の認識や自然言語処理などにおいても、人間の能力に迫り、場合によっては凌駕する性能を実現しつつあります。このようなメディア処理を中心に、今後さらにAIの進歩は加速すると期待されます。とはいえ脳の処理は複雑であり未解明の部分も多く残されています。AIの性能が複雑な人間の脳を超えるほどに進歩するのはまだ先といえます。 
    一方で人間は認知上のバイアス(偏り)にとらわれ間違いを犯したり、実際にはありもしない錯覚をリアルに感じてしまったりなど、複雑であるがゆえに一見すると不完全な存在でもあります。このように、限定された範囲で急速に発展を続けるコンピュータ(AI)と、複雑であるがゆえに不完全でもある人間とをつなぎ、両者のギャップを埋めることが「コミュニケーション科学」を研究所名に掲げるNTTコミュニケーション科学基礎研究所(CS研)の使命です()。これをふまえてCS研は人と人、あるいはコンピュータと人の間の「こころまで伝わる」コミュニケーションの実現をめざし、基礎理論の構築と革新技術の創出に取り組んでいます(1)。地道な基礎理論の構築の例としては、符号化効率の限界(シャノン限界)まで効率良くメッセージを送受信する符号化法の提案が挙げられます。こちらについては本特集記事『限界まで効率良くメッセージを送れます──シャノン限界を達成する通信路符号』で詳しく説明します(2)。今後さらに「こころまで伝わる」をめざすためには、メディア処理を中心とした人間の能力に迫る技術を追究するのはもちろんのこと、人間の機能、特性を解明し、人間のことをよく理解すること、そのうえで人間に寄り添う技術の実現をめざすことが一層重要であると考えています。

    図 コミュニケーション科学のミッション
    図 コミュニケーション科学のミッション

    人間の能力に迫る技術

    世の中にはまだまだ、人間は得意でも、コンピュータには苦手な処理が多数存在します。確かに機械翻訳の精度は飛躍的に向上し、大学入試の英語穴埋め問題をある程度正解できるようにはなりましたが(3)、文章の意味を深く理解したり、常識を身につけたり、というレベルにはまだ到達していません。
    一方で、深層学習技術を駆使することで、画像認識や音声認識など、特定の面では人間の能力に迫ってきたことも事実です。例えば、会議やパーティでの歓談などにおいて、複数の人が同時に話したり、背景に音楽が流れていたりするとします。人間はこのような状況においても「聞きたい」人の声の特徴を選り分けて、話す内容を聞き取ることができます。これは人間の聴覚の優れた能力の1つで、選択的聴取と呼ばれます。選択的聴取はより広い概念である選択的注意の代表例です。従来、このような選択的聴取を、コンピュータは苦手でしたが、CS研では独自の深層学習技術により、人間同様、コンピュータが目的話者の声の特徴に基づき、その声だけを聞き取る技術を実現し、さらにそれを発展させています(4)
    これらのメディア処理技術が今後さらに進歩し、人間に近づくための鍵となるのがクロスモーダル処理です。クロスモーダル処理とは、「音声」「映像」「テキスト」など単一の「モダリティ」の垣根を越えた処理、という意味です。従来、これら「音声」「映像」「テキスト」などはそれぞれ解析手法も異なり、別々に研究されてきました。しかしここに来て、深層学習といういわば「共通言語」が整備されたおかげで、モダリティの垣根を越えた「認識」「生成」「変換」が可能になりつつあります。…

    ■参考文献

    1. (1) 山田:“新たな次元へとシフトする ―― さらに深化するコミュニケーション科学の取り組み、”NTT技術ジャーナル、Vol.30, No.9, pp.8-11, 2018。
    2. (2) 村松:“限界まで効率良くメッセージを送れます ―― シャノン限界を達成する通進路符号、”NTT技術ジャーナル、Vol.31, No.9, pp.26-30, 2019。
    3. (3) 東中・杉山・磯崎・菊井・堂坂・平・南:“「ロボットは東大に入れるか」における英語問題の回答手法、”NTT技術ジャーナル、Vol.27, No.4, pp.63-66, 2015。
    4. (4) Delcroix・Zmolikova・木下・荒川・小川・中谷:“SpeakerBeam:聞きたい人の声に耳を傾けるコンピュータ ―― 深層学習に基づく音声の選択的聴取、”NTT技術ジャーナル、Vol.30, No.9, pp.12-15, 2018。

    関連するコンテンツ