ネットワーク基盤によって次世代型AIを実現する。NTTの

  • #インタビュー
  • #研究企画部門
  • #IOWN

技術的イノベーションが進む一方で、データ量や消費電力などの課題も多いデジタル・情報化社会。斬新なビジネスモデルや高尚なビジョンを掲げても、それが本当に実現されるのかと懸念するビジネスパーソンも少なくないのではないだろうか。

しかし、日本の技術インフラは、2030年に向けて大きく変わろうとしている。そのけん引役となるのが、NTTが掲げる「IOWN(アイオン)構想」だ。同プロジェクトでは、通信インフラをアップデートさせながら、そのネットワークの上で実現されるソリューションやサービスの研究開発も推進。

各ソリューションにおいて根幹を担う次世代型AI領域では、汎用型AI「MediaGnosis」の実装が進んでおり、AIそしてコミュニケーションの在り方を大きく変えると見込まれている。「IOWN構想」や次世代型AIは、どのような未来を創り出していくのだろうか。プロジェクトを推進するNTTの特別研究員・増村亮氏に話を聞く。

大容量通信とサステナビリティを両立する、NTTの壮大な構想

IoTやAI、ビッグデータ、DXといった言葉を、頻繁に耳にするようになって久しい。あらゆる物とデータがつながる高度な社会は目前に迫っており、私たちのビジネスや生活は、やがて飛躍的な進化を遂げるだろう。しかしそこには課題も存在する。その一つが電力だ。

現在、大量のデータを高速で流通させているのは、光の力の恩恵である。しかしコンピューティングの世界では、光を最後に電気へと変換させることで、はじめて情報が出力される。そのため、ますます情報爆発が予測される将来のIoT社会では、消費電力は指数関数的に増加。それに伴うエネルギー供給量の不足は、世界的な課題になっているのだ。NTTでAIの研究を進める増村氏は、この点を危惧している。

増村氏「このまま世の中を流通するデータ量が増加すれば、電力の問題には必ず衝突します。また、伝送能力や処理能力といった通信量の限界も訪れるでしょう。すると、どんなに高度なAIが開発されても、私たちNTTの実現したい未来にはたどり着かないのです」

IoTの進展によるネットワーク接続デバイスの爆発的増加は、ネットワークの負荷を高めるだけでなく、エネルギー消費の面でも大きな懸念になっている。参考:NTT

増村氏が語る「実現したい未来」とは、一体何だろうか。

NTTでは現在、「IOWN(Innovative Optical and Wireless Network)構想」を掲げ、2026年度の商用展開に向けて着々と研究開発を進めている。同構想は、次世代のコミュニケーションを可能にする情報処理基盤を構築するプロジェクト。高度なネットワーク技術を有するNTTが、「低遅延」「低消費電力」「超大容量通信」を可能にする基盤をつくることで、豊かな社会に向けたさまざまなソリューションを提供しようとしているのだ。

増村氏「IOWN構想では、情報関連のインフラを構築するとともに、それによって可能になるサービスを開発・提供しています。このサービス面で目指しているのが『デジタルツインコンピューティング』。リアルとデジタル、両方の世界を掛け合わせ、未来予測や自己実現に貢献するものです。

インターネットやスマートデバイスが普及した現在、多くのことが機械によって可能になりました。しかし、まだまだ人間のようには作動しておらず、私たちが操作をしなければなりません。ここに人間の持つ能力をインプットすれば、デジタルデバイス、自動車、家電、さらには都市全体と、あらゆる物が人のように考え、動けるようになるでしょう。そのためには、"人のデジタル化"が必要です」

つまり、デジタル空間や多様な産業、モノに、人の"ツイン"(双子)を投影することで、もう一人の自分を作ることが、NTTの「デジタルツインコンピューティング」となる。これによって人間はどのように豊かになるのだろうか。「人のデジタル化」の内容について、AIを例に見ていこう。

特化型AIの壁を超えた「MediaGnosis」で実現する新たなフェーズ

NTTは2021年11月、人間に近い情報処理機構を備えるAIを開発したと発表。次世代メディア処理AI「MediaGnosis」として公開された。最終的には「人のように動くAI」を目指していると、増村氏はいう。

NTT コンピュータ&データサイエンス研究所 特別研究員 増村亮氏

増村氏「第4次産業革命の中核の一つともいわれるAIは、ディープラーニングとビッグデータの力によって音声認識、画像認識などの処理技術が高度に発展。実用化も進んできました。しかし現在のAIには欠点があります。それが、人間のようなマルチタスクをこなせないことです」

人間の知能を模倣する形で進化してきたAIだが、その開発は音声、画像、自然言語というように、各領域で独自に進められてきた。こうした従来のAIは、「特化型AI」と呼ばれる。しかし実際の人間は、五感で得た知識を脳に蓄積し、これを複合的に応用しながらさまざまな情報を処理している。つまり既存のAIは、視覚や聴覚が独立し、それぞれに別個の脳が用意されているようなものであり、高度な学習や推論は達成できないのだ。

増村氏「特化型AIに対し、人間のように統合的に情報を処理するのが『汎用型AI』です。また、実際の人間は視覚一つとっても、微細な動作、文脈や背景、シチュエーション、服装にいたるまで、目の前のあらゆる情報を集約しながら、思考と判断を行います。 "汎用型"と"複数の情報入力"の要素を備えるのが、MediaGnosisになります」

知識集約型マルチメディア理解技術 "MediaGnosis" (NTT official channel)

こうした次世代型AIの開発は、世界中で進められている。ビッグデータを集約できるGAFAをはじめとしたプラットフォーマーは、機械学習という点で有利と思われるかもしれない。しかし実は、NTTは国内トップクラスのAI技術を誇る企業であり、長年培われた高度なノウハウと、AIを中心としたサービス系の分野において約700人の研究員を抱えている。そして音声・画像など各領域の専門家が、横断的に研究を進めているのだ。増村氏も、この魅力ある研究環境を求めて入職した一人である。

増村氏「テクノロジー領域において日本が後れを取っているのは事実。しかし、NTTがIOWN構想により基盤を整備できれば、大容量通信が可能になり、その通信基盤を前提とした今度なAI基盤を開発することができます。現時点でも、サービスとして実装された汎用型AIでは、世界トップクラスの先進性を持っていると自負しています」

次々と実装化が進む、NTTの次世代型AI

MediaGnosisが搭載された例の一つに、人間の魅力を発見するアプリケーション「MOTESSENSE」がある。他人と比較した際の個性的な部分を魅力と定義するMOTESSENSEは、特定のシチュエーションに対してユーザーがロールプレイを行い、カメラとマイクからセンシング。その話し方や表情、しぐさ、言葉の内容などを総合的にAIで診断し、魅力的な個性「モテ因子」を検出するものだ。

MediaGnosisを使ったアプリケーション「MOTESSENSE」

増村氏「現代社会の中でウェルビーイングを形成するためには、個性や多様性を受け入れることが重要です。しかし私たち人間は、自分自身の個性や魅力を発見するのが苦手。その手助けを、人間のように他者を理解するAIが担えればと、開発を進めてきました」

具体的な流れを追うとMOTESSENSEはまず、ユーザーに「あなたについて教えて」「好みの人について教えて」と質問する。ユーザーはそれに答える形で、画面に向かって「音楽が好きで......」「生まれは長崎......」というように60秒間話をする。すると、「感情」「ミステリアス」といった複数のモテ因子が文面でフィードバックされる。さらに「表現力」「思考」といった個性を表現する5つの観点、「表情・声に含まれる感情の割合」などが細かく数値化され、グラフで把握できるのだ。こうしてユーザーは、自分の魅力を客観的に理解することができる。

選択したシナリオに合わせてユーザーが回答を行うことで、さまざまな視点・要素から個性を分析することが可能

増村氏「声や表情、動きを同時に分析し、知識を蓄積しながら判断をするという点で、MediaGnosisの技術が応用されています。今のところMOTESSENSEは音声と画像処理がベースになっていますが、MediaGnosisが進化することで、より繊細に分析できるようになるでしょう。握手をした時の温もりを感知したり、味覚なども取り入れられたら面白いですね」

MOTESSENSEは現在、実証実験をオンラインで公開している段階だ。11月に開催された「NTT R&Dフォーラム2021」ではデモンストレーションが行われ、大きな反響を呼んでいる。

増村氏「今後実験で得られた知見をフィードバックすれば、より性能を向上させられます。自分を客観視することができれば、セルフプロデュースやマッチングが可能になりますし、自分に自信を持つことでウェルビーイングも達成できます。面接やプレゼンテーションの練習、接客支援など、これから新たに開発するサービスにも役立てられるのではないでしょうか」

NTTグループは、他にもさまざまなAIソリューションを展開している。企業において顧客と良質なコミュニケーションをAPI連携によって支援する「AI suite」、音声データ入力からテキスト出力までをオールインワンで実現する音声認識ソフトウェア「SpeechRec Server」など、ビジネスで活用できるものも多い。こうしたプロダクトにもMediaGnosisの技術基盤が導入され、各サービスが学習した知識が再び還元されることで、MediaGnosisは目まぐるしく高度化していくのだ。

増村氏「NTTが持つAIの基盤とサービスを全てMediaGnosisにつなぐ。こうして完成する次世代型AIの最大の強みは、人間の外見だけでなく内面も分析することです。最終的には『人のデジタル化』も進められると信じています」

社会におけるさまざまなシーンに実装することでAIを進化させる。そして、「人のデジタル化」によってIOWN構想のデジタルツインコンピューティングを実現する。MediaGnosisは、壮大なIOWN構想の一翼を担っているというわけだ。

IOWN構想実現の2030年、AIはどう進化しているか

高度な未来社会の実現に向けては、パートナーも必要だ。NTTはIOWN構想を進める上で、国内外さまざまな領域の企業と協力している。

増村氏「次世代の情報通信インフラは、NTTだけの力では達成できません。AI一つとっても、プロダクトを他社に活用していただくことで、性能をより高めることができます。こうしたネットワークづくりにも、今後注力していきたいです」

汎用型AIとして進化を続けるMediaGnosis。しかし、IOWN構想が実現される2030年に向けては「"汎用"に加えてもう一つすべきことがある」と、増村氏は意気込む。

増村氏「成長する力そのものを、AIに組み込むことです。人間は赤ちゃんであっても、コミュニケーションを通じて成長します。しかし現在のAIは、初めからそのような構造にはなっていません。この学習プロセスを2030年までに導入する。するとようやく "真の進化"が始まり、人間のように機能するのだと考えています」

2030年以後の未来。私たちはどのような世界に生きているのだろうか。研究者として増村氏は、次のように予測する。

増村氏「技術革新の本質は、人間がさまざまな手段の中から、主体的に選択できる世の中をつくることだと考えています。かつて近代化を支えた鉄道は、人々の遠距離移動を実現しました。しかしそれでも、東京から大阪まで自転車で旅をする人もいます。DXやAIも同じように、できることの幅を広げることに貢献するのではないでしょうか。"人をデジタル化する"ことで便利な社会にしても、"自分らしく生きる"といった人間本来の活動は変わりません。むしろこうした部分を助けるツールを、2030年以降に提供していくことが必要です。

この社会は、ネットワーク基盤の整備と、AIをはじめとした個別のソリューションの両輪によって可能になり、だからこそNTTはトップランナーを目指すことができます。私たちはすぐそこまで来ている未来に向けて、IOWN構想を推進しているのです」

テクノロジーの限界を超え、新たなイノベーションを起こす。この二つを同時に実現しようと、NTTは歩みを進めているのだ。この未来に対しては、私たちも無関係ではいられないだろう。あなたも未来社会の担い手の一人として、ビジネスや生活の中でIOWN構想にアクセスしてみてはいかがだろうか。

取材・文:相澤 優太
写真:西村 克也

※本記事は、AMPに掲載された記事の転載です。