光ディスアグリゲーテッドコンピュータ技術
コンピューティングリソースを光でつなぎ最適化することで処理の電力効率を大幅に改善
技術背景・課題
実世界の大量のデータを相互に繋げることで新たな価値を生みだし、スマートな社会を実現するIOWN構想を実現するためには、リアルワールドで発生する大量なデータをリアルタイムで集約し、低遅延でシミュレーションを実施する「デジタルツイン」といった高度なアプリケーションを高い電力効率で大量に処理できるコンピューティング基盤が重要になります。
ムーア則の終焉に伴いLSIの集積度向上によるプロセッサ能力向上にも陰りが見え始め、さらにプロセッサ間や装置間の電気による信号接続距離が限界に達しつつあることから、大量のリアルタイムデータに対し高度な処理をより短時間で処理しつつも、リソースを効率よく利用できる環境を提供し、電力効率やコスト効率に優れるコンピュータを実現する必要があります。これらの課題を解決するため、NTT研究所では光ディスアグリゲーテッドコンピュータの研究を実施しています。
技術の概要・特徴・内容
汎用的なCPUより電力効率に優れる、特定用途に特化したプロセッサ(アクセラレータ)を中心としたコンピューティングリソースを、電気より長距離・広帯域・低消費電力な光電融合技術を利用して繋ぐことでラックやデータセンタのスケールでプール化し、このリソースプールから必要なリソースを自由に接続し処理を行う構成が、光ディスアグリゲーテッドコンピュータの基本構成です。
従来のデータセンタは、図1左に示すように、多数のサーバをTCP/IPベースのネットワークで繋いだ構成をとっています。この構成では、物理的に演算リソースを追加する単位はサーバとなり、増設する際のフレキシビリティが低く、TCP/IPのプロトコルを処理する必要がある ため通信オーバヘッドが生じ、多数のサーバを接続しても通信ボトルネックにより性能の向上に制限が生じます。これに対し、NTT研究所が提案する図1右の光ディスアグリゲーテッド構成では、光電融合技術を利用したインターコネクト(Photonic Fabric)を介しハードウェア処理可能なシンプル・低遅延なプロトコルによりCPUやGPU、FPGA(Field Programmable Gate Array)などのアクセラレータ、メモリ等のリソースが接続する構成となっていて、光の場合は、数100m~kmのオーダーをTbit/sの通信速度で繋ぐことができます。これにより、サーバという単位でネットワークで接続するこれまでのデータセンタの概念を、CPUやアクセラレータ・メモリ等といったより細かい粒度のリソースをラックスケールやデータセンタスケールで直接接続する構成が可能となります。
技術目標・成果・効果
光ディスアグリゲーテッドコンピュータ技術を利用したコンピュータ基盤であるDCI (Data Centric Infrastructure)の実用化を進め、より電力効率に優れたコンピュータ基盤としてNTTをはじめとするデータセンタへの普及をめざします。
DCIにおいては,特定処理を実施する場合には、汎用的なCPUより特定用途に特化したプロセッサ(アクセラレータ)の活用によりが電力効率良く処理できます。例えば、CPUで行列演算をする場合と比較して、行列演算に特化したGPUを活用することで、より電力効率に優れ、 処理速度も圧倒的に速いことは数多くのベンチマークで実証されています。このような電力効率・処理能力に優れる多様なアクセラレータをプール化し、サーバではなくアクセラレータという細粒度で相互に高速・低消費電力な光で接続していく構成が提案構成の特徴となります。
既存サーバのアーキテクチャでアクセラレータを接続する場合には、CPUがどのアクセラレータに処理を渡すかを判断し、データをそのアクセラレータへ受け渡しする必要があります。この構成では、すべてのアクセラレータの制御とデータ授受を担うCPUがボトルネックとなり性能が出ないだけでなく、CPUが電力を大量に消費するため、電力効率に優れるアクセラレータを使うメリットが失われます。(図2左)。そのため、図2右のようにCPUを介さずにアクセラレータ間を直接接続することにより無駄なCPUの消費電力を抑えます。具体的には、デバイスメモリ間のダイレクトコピーなどの方式により、CPUの介在なしにアクセラレータどうしが直接データ交換を行うことでCPU負荷を大きく削減します。
さらに、アクセラレータを複数接続する構成においては、図3のように負荷の変動に応じたリソースの追加・削除をよりきめ細かく実施することによりリソースの利用効率を高め、さらなる電力効率の改善が可能となります。
このように、電力効率に優れる専用プロセッサを中心としたコンピューティングリソースをフレキシブルに接続できる構成とし、低消費電力化・リソース利用の効率化をもたらすのが、DCIの狙いです。
想定される適用分野・PoC
DCIの適用領域としては、大量のリアルタイムデータの処理を初期ターゲットとしており、大容量の動画データを大量にリアルタイムに処理する必要がある、映像推論をまず初めのアプリケーションとして開発を進めています。
複数のカメラの映像から 、画像推論を行うデモ機を作成、性能評価した。具体的な構成として、カメラからの映像を受け取りデコードするデコードFPGA、デコードした画像のフィルタリングとリサイズといった画像前処理を行う画像前処理FPGA、画像推論を行うGPUを接続し、特にデコードFPGAと画像前処理FPGAは光リンクによりCPUを介さない直接接続を行った。これら直接接続されたアクセラレータを中心とした構成を取ることにより、図4の消費電力グラフに示すよう、緑線で示される2020年時点で一般的な従来構成での消費電力に比べ、赤線の提案構成では電力を約60%近く削減することができました。さらに推論対象となる人物が少ない夜間はポリシ切り替えによりアクセラレータ接続を変更する構成を提案しており、昼間のデコードFPGAと画像前処理FPGAをそれぞれ2個ずつ利用する構成から負荷の低い夜間は1個ずつ利用する構成に切り替え、さらにGPUもより夜間は昼間より低消費電力なGPUに切り替えることで、昼間に対しさらに電力を削減し、従来構成比70%以上の電力の削減を確認しました※1。
また、カメラを備えるセンサ拠点とアクセラレータを多数備えたDCIとが遠くに離れていた場合でも、低遅延なAPNで接続することでオーバヘッドを最小限に抑えることができ、本構成の電力効率の高さを活かせることを、IOWN Global Forumに承認された公式PoCとして検証した※2,3。カメラを備えるセンサ拠点とアクセラレータプールを備える郊外型データセンタ間の距離を100kmとした図5のような構成において、従来のAI分析処理を適用した場合と比較し、その遅延時間(センサ設置拠点でデータを受信してから郊外型データセンタでAI分析を完了するまでの時間)を最大で60%削減できること確認しました。また、データセンタでのカメラ1台あたりのAI分析に要する消費電力を最大40%削減できることが確認できました。これにより、DCIを設置する場所の自由度が高まり、再生可能エネルギーを最大限活用できる郊外型データセンタの活用や、電力が余っているデータセンタへ処理を振り分けるといったことが可能になり、さらなる電力効率の向上が期待できます。
今後の展望
今後はAI推論に限らず、生成AI学習等といった大量のアクセラレータを利用する分野にも適用領域の拡大を図りつつ、実用化に向けた検討を進めていきます。最初のステップとしては、2025年度の大阪・関西万博において映像AI推論を用いた活用事例を示し、その後、多数のアクセラレータにおいて、CPUを介さずに高速・低遅延で直接接続する技術を採用したDCI-2システムの商用化、DCI-2では、1000台のカメラで4k映像を推論するワークフローにおいて、2020年度の一般的な構成に比べ電力効率8倍をめざします。
さらに光電融合技術(PEC: Photonics-Electronics Convergence device)を本格的に活用したDCI-3を実現することで、光によるラックスケール・データセンタスケールのリソースのフレキシブルな接続によるさらなる進化を図り、DCI-2より電力効率に優れたデータセンタの実現に貢献していきます。