2024 REPORT

2024 REPORT

次世代のAIについて

登壇者

NTTコンピュータ&データサイエンス研究所
主幹研究員

竹内 亨 Takeuchi Susumu

Sakana AI
COO

伊藤 錬 Ito Ren

東京大学
特任教授

三宅 陽一郎 Miyake Youichiro

モデレーター

『WIRED』日本版
編集長

松島 倫明 Matsushima Michiaki

2024年11月28日にNTTコンピュータ&データサイエンス研究所 竹内亨 主幹研究員、Sakana AI 伊藤錬 COO、東京大学 三宅陽一郎 特任教授と『WIRED』日本版 松島倫明 編集長が登壇された技術セミナー「次世代のAIについて」の様子をお伝えします。

未来は1つではなく多元性の可能性がある

『WIRED』日本版編集長 松島 倫明

このセッションのきっかけは、NTTが開催した「AI コンステレーション・ラウンドテーブル」( AIコンステレーションの未来の可能性を探る、有識者とNTT研究者による会議)にWIREDが参加したことです。
WIREDは「未来を実装する」ことをコンセプトにしており、Future(未来)をFuturesと複数形にして呼んでいます。それは「未来は1つではなく複数の可能性がある」ことを意図しています。
AIが自己改良を繰り返し人間を上回る「シンギュラリティ」という仮説がありますが、今の生成AIにそこまでの能力はありません。文化や地域性の違いなど複雑な人間社会でAIをどう適応させ、多元的なAIをどうつくるのか、という大きな課題設定をベースに「次世代のAI」についてお話を伺います。

研究内容の紹介

次世代AIに向けた取り組み - AIコンステレーション -

NTTコンピュータ&データサイエンス研究所
主幹研究員  竹内 亨

私はAIとアルゴリズムに関する研究開発グループのリーダーを務めています。本日は昨年度から進めている「AIコンステレーション」についてご説明します。まず現代のAIはLLM (Large Language Models) のような大規模言語モデルが台頭しており、LLMを抜きに考えることはできません。ChatGPTが現れてからは、AIの研究業界や実業界も大きく変わり、今のオープンで汎用的な知識を獲得するAIもあれば、クローズドなドメイン・組織内データを活用する取り組みも進んでいます。この「クローズドな知識の活用」が非常に難しいことで、みなさんも感じるところだと思います。
その一方でLLMは大規模化による消費電力と計算コストの増加が問題視されています。また、LLMは大きくなると一般性は上がりますが、個性がなくなり差別化ができなくなる懸念もあります。そうしたことから、LLMは「何でも知っている巨大なLLM」から、「専門知識をもったリーズナブルなLLM」の流れになり、すでに医療や法律、製造、鉄道などがオリジナルのLLM開発に取り組んでいます。その各社が作った複数のLLMを組み合わせて使うのが今後のトレンドになると考えています。
我々も昨年度に「専門性や個性を持つ低コストのLLMを組み合わせて問題を解く」というコンセプトを立ち上げました。AI同士が相互に議論・訂正をして多様な視点で問題を解き、少数意見も尊重して議論を高度化する大規模なAI連携技術です。そのAI同士が星座(コンステレーション)のように連携する様子から「AIコンステーション」と命名しました。(図1)

AIが星座のように相互に連携する様子から、「AIコンステレーション」と命名した
図1 AIコンステレーション

続いて、AIコンステレーションが持つべき能力を人間の「創造性」と「個性」を軸に考えたとき、まず定型的業務があり、そこに創造性が加わると持続的イノベーションが生まれ、個性が加わることで破壊的イノベーションになります。今のLLMの適応範囲は定型的業務で、人の作業をAIに置き換えることにより適用領域の拡大が期待されています。それに対してAIコンステレーションは多様なAIによって「個性」を獲得しつつ、AI同士の議論によって「創造性」が増すことが期待され、人間の「置き換え」ではなく「支援」ができると考えています。(図2)

AIコンステレーションの能力
図2 AIコンステレーションの能力

ユースケース(ユーザの要求や利用目的を明確に定義したもの)は2つあり、ひとつが「創造性や個性の拡大」です。何か物事を計画したり決めるときは、未来を想像してから逆算で考えるものですが、AIコンステレーションのように多様な視点で情報が提供できればユーザの視点拡大が期待できます。もうひとつはコミュニティ議論の高度化です。例えば会議で議論を広げたり深めたりするのは非常に難しいことですが、そこに多様な観点を追加することで知識や議論レベルが深まります。
今回のR&DフォーラムではAIコンステレーションに関する展示をしており、複数のLLMに議論させるデモンストレーションや、コミュニティ議論の高度化を目指して開催した、福岡県大牟田市の『会議シンギュラリティ』も紹介しています。(図3)これは実際の地域問題について議論する場にAIを導入したもので、AI同士で議論させてから住民同士が議論する取り組みです。その結果AIのアイデアにより議論が円滑にスタートし、自分にはない視点に気づけるなど、多くの効果がありました。

大牟田市で開催した会議シンギュラリティでは、AIにより様々な効果があった
図3 大牟田市で開催した会議シンギュラリティ

AIコンステレーションの実現にはAI同士の連携方法、学習や運用の改善、コストの削減などが課題です。また、今のLLMは自然言語の範囲は理解できても、世の中の情報理解には達していないため、非メディアの高度化も必要です。
我々はIOWNのネットワークやコンピューティング基盤などを活用して、「人とAIが協調するサービス環境」を提供し、社会貢献につなげたいと考えています。(図4)

IOWNを通して、人とAIが協調して多様性と公平性を確保した社会実現に貢献
図4 AIコンステレーションで社会に貢献する

次世代のAI  - モデルをひとつにする進化的モデルマージ -

Sakana AI
伊藤 錬 COO

我々は今年の3月にモデルをくっつけて繋いで利用する「進化的モデルマージ」を発表しました。これはモデルの作り方という意味で、AIコンステレーションのコンセプトを体現したものだと考えています。複数の小さなモデルをつないで、大きなモデルに比するパフォーマンスで課題を解決したり、AI同士が会話することで正しくカリブレーション(調整)していくことが次世代のAIの姿だと考えています。本日はAIコンステレーションのコンセプトのうえでどのようなAIをつくるべきか、いかに次世代のAIだと思っていただけるのかを、実例を含めてお伝えします。
モデルをつくるときに「ゼロ」から作り始めた場合、OpenAIよりも20〜30%ほど効率的にモデル作成ができる企業もあります。しかし我々は99.999%の効率化を目指しているため、ゼロスタートではなく既存モデル同士をくっつけることで効率化を図りました。人に例えると目はこの人、耳はこの人と良いところを集めて人間をつくるのではなく、目が4つあって足の裏にもあって、耳も4つあってもかまわないという「フランケンシュタインマージ」という手法でモデルを作ります。そうして10000通りのモデルマージを作り、その中のパフォーマンスの高い10個だけ残してあとは捨ててしまいます。その10個のモデルを第2世代モデルとしてまた10000個作り、トップの10個だけを残すという作業を繰り返します。これを999世代まで試したところGPT3.5くらいの性能を、24時間と24ドルでつくれました。これは我々にとって面白く大きな気づきでした。
またモデルの作り方もただデータを突っ込むだけでは限界があり、性能は上がってもコストに見合わなくなります。そのため「リーズニング」と呼ばれるモデル同士が会話できる技術を使ってサステナブルなモデル作りをする流れになってきています。今のChatGPTは何でもすぐに解決できる精度は無く、翻訳や要約が少しだけできてコールセンターが良くなって、というのが現実です。しかし我々が思い描く「革新的な未来を起こすために必要なAI」も、いくつかでてきました。そのひとつがワークフローオートメーションで、複数のステップに分かれているものを一気に自動化するテクノロジーです。
それを「学術論文を書く」という例で試してみました。通常のステップでは偉い先生から若い研究者にこんな論文を書いてごらんと助言があり、若い研究者は100個の面白そうなアイデアを考えて図書館に行って調べます。そうすると95個くらいは証明済みだったりするので、その残りの5個を証明して図表を作り論文にしていきます。
それをすべてAI化させたものを『AI scientist』という論文で証明しました。(図5)これは雑誌ネイチャーにAIで初めて取り上げられた論文となりました。方法としては100個のアイデアを100個の違う基盤モデルに問いかけて得られたものを、カリブレートするやり方です。このように我々はコンステレーションの考え方を使いながら、面白いモデルの構築や活用方法にチャレンジし続けています。

AI Scientistの論文
図5 論文『AI scientist』

次世代AIとデジタルゲームAI - 3種類のゲームAIでスマートシティを実現させる -

東京大学
特任教授 三宅 陽一郎

私からはゲーム分野とデジタルゲームAIについて説明します。この産業はまだ新しく2000年から盛り上がってきたもので、私は2004年くらいにゲーム産業に入りました。まず「ゲームAI」にはメタAI、キャラクターAI、空間AIの3種類があり、それぞれに役割があります。(図6)

メタAI・キャラクターAI・空間AIの3種類あるゲームAI
図6 3種類のゲームAI

そしてメタAIは生成AIと、キャラクターAIは言語AIと、空間AIは空間コンピューターと組み合わせができます。東京大学ではそれを実空間に応用するため、大牟田市全体を統べるメタAI、都市の中で活動するキャラクターAI、そして都市の空間的状況を把握する空間AIの3つのAIを組合せたスマートシティ(最先端のデジタル技術や情報を活用して都市機能の効率化・最適化をめざす都市)の仕組み作りをしています。本日はこれからキーワードになっていく空間AIとメタAIについて解説します。
まず空間AIは、特定の場所で取得した空間情報を渡したり、デジタルツインメタバース(デジタルと現実世界の仮想空間) をつくるときに空間に張り付いたAIが情報を渡すなど、現実から情報を吸い上げてメタバースに渡す役割を担っています。(図7)ほかにも環境の中に情報AIを埋め込むテクニックもあります。実はゲームではドアなどのオブジェクト自体がAIになってキャラクターの運動補助を担っており、それを積み上げてスマートシティを作ろうとしています。

メタAIは「人間を理解しようとするAI」です。ユーザにいろいろなデバイスをつけて生体情報を取得して心理状態が把握できますが、これはゲーム内だけではなく実空間でも同じです。
さらに、メタAI自体が3Dダンジョンなど、ゲームそのものを作り出すこともできます。ゲームコンテンツはこれまで100%人間が作っていましたが、メタAIが生成AIの力を借りてプラス20%の多様なコンテンツやゲームが作れるようになります。こういった技術を活用してさまざまコミュニケーションをとっていければと考えています。
この3つのAIでゲーム空間や実空間を変えていくには、仮想空間でシミュレーションしてから実空間に返す作業が必要です。今後は実空間と仮想空間をセットにし、メタバースそのものを人工知能として使うことがメタAIの役目となります。ほかにもシステムと人間をつなぐエージェント(データを統合する役)も必要になり、今後はAIコンステレーションが軸となる「AIで会話できる未来」がくると考えています。

物理世界と同期するメタバース
図7 物理世界と同期するメタバース

ディスカッション

メタバースを活用してゲームAIを現実世界に戻す取り組み × AIコンステレーションの可能性

竹内主幹研究員
最初の段階でAIコンステレーションはLLMを中心に考えており、自然言語で把握されている一般的な概念の話でした。しかし、大牟田市のように実際にやってみると情報を与えても拾いきれないことも多く、もしAIがカフェをつくる提案をしてきても空間情報がなく成立するか分からない話になりします。仮想空間もLLMも、正しい知識をグラウンディングしなければ議論を深めることは難しい、という共通点があると思います。
松島編集長
AIが物理空間や人間とインタラクションするというAI研究の中でもチャレンジの部分だと思いますが、ゲーム空間のものを実世界にどう返せば良いと考えますか。
伊藤COO
三宅教授のデジタルツイン(現実世界で情報を収集しデジタル上に双子のように再現すること)の議論は、一足飛びに物理空間にいかない未来のある手法だと思います。AIは物理的要素がなく、答えがすべてコンピュータの中にあるほうが実装しやすく、金融機関における住宅ローンのプロセスの自動化ならすべて計算で解がでます。一方で、飛行機をうまく飛ばすAIを作りましょうといった場合に、最後に翼をカンナで叩く匠の技が入るような物理的プロセスがあると、今のAIでは対応できません。
実世界の物理も加味してAIが解を出すためには、中間ステップが必要です。その中間ステップにはデジタルツインが必要不可欠で、ロボティクスや自動運転が、物理的な障害の知見を貯めてAIにフィードバックする唯一の方法です。そして、それをまた現実世界に戻すラーニングループも重要となります。
さらに、LLMのデータ投入量に対してリターンが低減しているため、言語以外の時系列データや信号理解のモデルも必要です。言語以外の違うモデルもどんどん開発し、その掛け合わせが大きな成果を生むのだと思います。
三宅教授
AIコンステレーションには大袈裟な表現ではなく絶大な可能性があると思っています。職業柄いろいろな会議に参加しますが、会議にはパワーが必要ですし、そこにいるメンバーに依存してその日の流れで会議の結論が出てしまうことがあります。そこに昔から違和感があり、メンバーを変えたり、抜いたりした別バージョンの会議を本当はやるべきで、そのソリューションこそ会社の経営層が欲しいはずです。それをAIによって1000通りの多様な意見が飛び交う会議を行い、999個を捨てて1つの最高の会議が残る、それこそが本来必要なものです。我々が無意識に欲しいと思っていたものを実現できることに大きな可能性を感じます。

会議 × マルチモーダルなAIで広がる可能性について

竹内主幹研究員
LLMでもまだまだできることがあり、会議で複数のモデルが議論すればプルーラルな視点の解を出すなど、人間ではできないブランチ(分岐点)を大量に作れます。また、会議がうまくできない原因に時間やデータの不足、必要なステークホルダーが集められないなどがあります。社会問題の場合は未来のステークホルダーが必要ですが、そこはLLMで一定程度再現できると思っています。しかし、未来の海洋資源を議論するときはそこに住む生物の立場も考える必要があり、今のLLMでは再現できません。また、時系列分析や空間分析の観点も含めて、意見をロジカルに拾わなければよく分からない結果になるため、LLMだけではなくさまざまなメディア情報が必要になると思います。
松島編集長
AIが物理空間や人間とインタラクションするというAI研究の中でもチャレンジの部分だと思いますが、ゲーム空間のものを実世界にどう返せば良いと考えますか。
伊藤COO
大牟田市の会議シンギュラリティはとても良い使い道で、ステークホルダーを1000人揃えなくても、AIがあれば1000通りの多角的なアイデアやシミュレーションができるのが面白い点だと思います。これをAI Scientistの文脈に直してベルカーブを用いて説明します。(図8)
LLMは「それっぽい答え」を出すことが得意です。これは1000個の答えでベルカーブを描き、その中央をシュートする基本的なAIの考え方で、ChatGPTが返す期待通りの答えも、期待外れな答えのどちらもベルカーブの中央をシュートしています。大牟田市の例でも、LLMによる1000通りの答えの中央をシュートすると予定調和な答えになります。
これはハルシネーション(AIが事実とは異なる情報を生成する現象)の解決にも有効で「ハルシネーションの少ないAI開発」よりも「大きな母数のモデルを作り、長いベルカーブの中央をシュートする」ことが効果的だと考えています。シュートの判断はエージェントが行いますが、中央以外のシュートを指定すると面白い答えが返ってくることがあります。このように、どこを狙うのかで解を変えられることが、AIのカリブレーションの真骨頂だと思います。
竹内主幹研究員
我々はオードリー・タンが提唱している「AIはArtificial Intelligence(アーティフィシャル・インテリジェンス,人工知能)ではなくAssistive Intelligence(アシスティブ・インテリジェンス,アシストする知能)であるべき」という考えに影響を受け人の個性と創造性を発揮する支援する未来を描いていますが、AI Scientistの観点でいうとAIはどのように人をアシストするのでしょうか。
伊藤COO
AIは人間の単純作業を助ける存在であり、AIの発展はSF映画のような夢を描くのではなく、地に足をつけて現実的に進めるものだと思います。ChatGPTをコピペする以上に高度で現実的な使い道を世界に広め、手応えを出すことが大事だと思っています。そのため、今は定型的な業務の深掘りを進める時期だと考えています。
松島編集長
プレイヤーが飽きないために3つのAIが一体で動いて、毎日1回は大きな山場がくるようなゲームの知見を、実際の会議などでも活かせるのでしょうか。
三宅教授
メタAIはゲームそのものを人工知能にするため、人間を理解してゲームそのものが変化していきます。会議で例えるなら、議論が停滞したら打開策を提示したり、中だるみすれば同じ話題を繰り返しています、など議論を前に進めるようなメンターの役割としてメタAIが活躍できます。
ベルカーブ
図8 ベルカーブのイメージ