更新日:2020/05/14

    AIの活用で人を必要とせず、しかも複雑な対処でも人よりも迅速!
    3つの研究所の技術で叶えるネットワーク運用の未来形

    ネットワークオペレーション業務における究極の理想型は、オペレータなど人的リソースを一切必要としないネットワーク運用、つまり完全自動化されたゼロタッチオペレーションであるといえます。NTTの各研究所ではこれまで保守業務において、監視・保守業務の自動化と、障害(故障・輻輳など)を予見的・早期に検知する二方向から、ゼロタッチオペレーションを実現化する検討を進めてきました。2019年のR&DフォーラムではNTT アクセスサービスシステム研究所(AS研)、NTT ネットワーク基盤技術研究所(NT研)、NTT ネットワークサービスシステム研究所(NS研)の3つの研究所がそれぞれの要素技術を結集し、AIを活用することで完全自動化された「インテリジェント・ゼロタッチオペレーション」と題する、これまでの方向性を一歩進めたコンセプトを発表しました。今回は各研究所の研究員の方々に、このコンセプトの全体像と、それに使われる各技術について伺いました。

    話し手

    野末 晴久 氏
    野末 晴久 氏のずえ はるひさ
    NTT アクセスサービスシステム研究所
    アクセスオペレーションプロジェクト
    オペレーション方式SEグループ
    主任研究員
    小林 正裕 氏
    小林 正裕 氏こばやし まさひろ
    NTT ネットワーク基盤技術研究所
    通信トラフィック品質プロジェクト
    トラヒックエンジニアリンググループ
    研究主任
    丹治 直幸 氏
    丹治 直幸 氏たんじ なおゆき
    NTT ネットワークサービスシステム研究所
    オペレーション基盤プロジェクト
    ネットワークオペレーションディベロップメントプロジェクト
    研究員

    インテリジェント・ゼロタッチオペレーションの実現に向けて

    「さまざまな情報をAIが分析・判断して自動対処する、究極のゼロタッチオペレーションを目指します」

    現在のネットワーク運用は、24時間365日、障害を検知すると保守者が故障箇所や対処方法を分析・判断してサービスを守る体制が敷かれています。しかし人が判断する分、復旧までにかかる時間が長期化することや、稼働がかかることが課題となってきました。我々が目指すインテリジェント・ゼロタッチオペレーションは、これまで人に頼らざるを得なかった監視・保守業務を完全自動化し、障害の発生を予測/早期検知して対処する予防保全を、AIによる自律制御で可能にしようとするものです。人をAIに置き換えることでこれまでよりさらに高精度、つまりインテリジェントなゼロタッチオペレーションを可能にしたいと考えています。2019年のR&Dフォーラムではこのコンセプトを提示しましたが、このオペレーションではNT研によるトラヒック分類技術・予測技術、AS研による障害箇所推定技術、NS研によるSLA(Service Level Agreement)判断技術を用い、それぞれの技術でAIがつながり、自律制御をループさせ続けていくイメージです。このコンセプトを実現するための、要素となっているメインの技術について以下にご紹介します。

    図1

    プロアクティブ対処を可能にする、トラヒック分類・予測技術(NT研)

    「複雑なトラヒック変動を高精度に予測し、先回りして対処します」

    トラヒック分類技術とトラヒック予測技術は、ネットワークの輻輳(混雑)を予測して事前(プロアクティブ)にリソースを割り当てる、プロアクティブなネットワーク制御を目指しています。

    輻輳(混雑)による通信帯域の減少や通信遅延の増大など、サービス品質の劣化を防ぐには、まず急激にトラヒックが増加するような状況を予測して対処する必要があり、これを行うのがトラヒック予測技術です。近年はIoTやデバイスの急速な普及に伴い、世の中にはさまざまな端末があふれています。またネットワークを介したサービスの増加、提供サービスの多様化により、ユーザの生活パターンに限定されないトラヒックも増加していることから、予測が困難化しています。具体的には、全体量でトラヒック量を予測しようとすると、特定のユーザやサービスに起因した急激なトラヒック変動の予測は困難です。一方、ユーザやサービスごとに予測したらどうだろうとなりますが、こちらは一つ一つのトラヒック量が少ないために予測精度が低く、またサービスやユーザの数が膨大すぎて、計算時間が増加してしまいます。

    これを解決するために、NT研ではグループ単位の予測方法を考えました。全体のトラヒックから特徴が類似したトラヒックを分類し、グループ化します。そしてグループ単位で予測を行い、最終的に各グループ単位での予測を合算し、全体のトラヒック量や特徴を予測します。こうすることにより、ユーザやサービス毎に予測する場合と比較して、グループ化するので計算が短時間で済み、グループの特徴を捉えることが可能なので予測精度も向上し、複雑なトラヒックを高精度に予測できるようになります。鍵となるのはグループをどう分類するかですが、非負値テンソル因子分解という手法を使います。これは購買履歴などの分析において、ユーザがどの場所でどんなものを購入するかといったことを分析する際によく使われている計算手法です。これをトラヒックデータに適用することで、ネットワークへのアクセスパターンが類似したサービスやユーザをグループ化することができます。トラヒックを短時間でグループ化するため、グループ数が多すぎても計算が複雑になるので数グループほどに絞り、加えて計算時間を要するグループ化ルール分けをオフラインで計算するなどの工夫を行っています。

    図2

    複雑な故障でも対応可能な、ルール学習型障害箇所推定技術(AS研)

    「ルール学習の繰り返しで故障箇所の推定精度を上げていきます」

    NT研の技術が事前の対処に関するものだとすると、AS研が提示しているのは、実際に故障などが起こった際の対処の自動化・自律強化に貢献するものです。従来のネットワークにおける障害対応は、監視装置が障害を検知するとアラームを出し、それを見て保守者が判断し、障害箇所の切り分けを行っています。これにはスキルやノウハウが必要で、時間もかかります。

    これを自動化するのが、ルール学習型障害箇所推定技術です。

    この技術では既に市中技術としてあるルールエンジンを使い、あらかじめ生成・登録しておいたルールに基づいて障害の箇所と原因を推定し、GUI上に候補を表示します。ポイントはこのルール作りを半自動化させたことです。最初は保守者の障害対応から学ぶ必要がありますが、それ以降はAIが学習を繰り返していくことでルールを自動更新していき、推定精度が向上していきます。これを続けることで、複数のアラームが出る複雑な故障でも過去の蓄積からうまく特徴を捉えることができるようになります。

    図3

    優先度や対処案の良し悪しを決める、SLA判断技術(NS研)

    「ネットワークの品質を人はどう感じているのか、軸に基づいてAIが判断します」

    トラヒックの分類・予測が行われ、障害箇所の推定を受けた際、ではどういった保守の対処するのか、判断する必要があります。たとえば明らかな故障の場合であっても、ユーザを収容していない装置などユーザへの影響が発生しないようであれば対処の優先度は下がりますし、ネットワークの遅延が増加しそうな場合、その遅延増加がサービス提供上、問題があるかどうかで対処の要否や優先度が変わってきます。未来の世界では、使用されるアプリケーションやユーザの状況によって異なる、さまざまなネットワーク品質をうたう通信サービスが存在しているのではないかと考えられます。たとえばリアルタイム性だったり、大容量で安定だったり、それぞれのサービスごとで満たすべき品質と照らし合わせることで、対処の要否や優先度をAIが判断し、最適な対処案の選定を自動化します。これがSLA判断技術(SLA Driven Operation)です。

    図4

    3つの技術が連携したインテリジェント・ゼロタッチオペレーションの一例

    「トラブルを事前に回避する、プロアクティブ対処のユースケース」

    ここまでインテリジェント・ゼロタッチオペレーションを構成する各技術について説明しましたが、これを用いたプロアクティブ対処の一例をご紹介します。

    プロアクティブ対処とは、トラブルを先回りして対処するオペレーションです、一つのネットワーク上に複数のサービスがある場合を想定したユースケースで説明します。たとえば、スポーツの試合があるたびに通信の混雑が起こるエリアがあるとします。エリア内にはWeb会議を行う企業などもあり、試合がある日に同じネットワークを使用すると、輻輳(混雑)によってWeb会議でも通信品質劣化などのトラブルが起こる可能性があります。こうした状況において、このインテリジェント・ゼロタッチオペレーションを導入すると、トラヒック分類・予測技術で事前にAIは学習しておいた分類ルールに基づいてトラヒックを分類し、それぞれの特徴をとらえたトラヒックを予測します。この場合、スポーツの試合時には一定時間に急激にトラヒックが増える可能性があると予測されたとします。次に影響を把握・検知するためにSLA判断技術が各ユーザの通信品質を予測し、定めてあるSLAの方針に照らし合わせます。仮にスポーツの試合におけるトラヒックの増加でWeb会議通信の遅延が見込まれた場合は、AIが保守対処を必要だと判断をします。さらに次に進むと、障害箇所推定技術を使い、AIが学習した推定ルールを元に、障害箇所や原因を推定します。今回は故障ではなく、混雑の輻輳アラームのみだと判断、その箇所を推定します。その後、リソースを最適に割り当てる技術によってスポーツ会場での通信を別の経路に迂回させるための計算を行って対処します。その結果、スポーツの試合中には予想通り会場での通信が増加しましたが、プロアクティブ対処によってトラヒックの混雑やWeb会議通信の品質劣化は回避される形になります。

    以上はあくまで想定でのユースケースですが、障害が起こる前段階で早期検知し、対処に人の手を使わずに行えるのが特徴となっています。

    図5

    今後の展開

    「それぞれの技術の進化、確立を目指していく」

    これまで、ネットワークの保守については、過去の蓄積から学んだAIによって情報補完や予測、判断、障害検知を行うなど、自動で制御しようというさまざまな研究がありました。ここにトラヒック分類や予測による早期検知をはじめとして、分析、対処判断から実施まで新たな技術を加え、それぞれの特長を活かしながらネットワーク運用業務の大きなループの中に取り入れていることが、これまでの研究から一歩進んでいる部分です。

    現在は個々の技術の研究をさらに深め、また技術ごとに事業会社への提供も予定されています。トラヒック分類・予測技術は技術の確立を目指し、障害箇所推定技術は2019年春に商用トライアルを実施し、推定精度のさらなる向上も果たしました。SLA判断技術は対処するか否かの、対処要否判断機能の実用化を目指しています。それぞれの技術をさらに高めていくことがゼロタッチの実現につながります。そして今後は、日々の運用のゼロタッチ化だけでなく、装置やサービスの仕様が変化した場合などに必要となる「運用の追従」すらもゼロタッチ化するなど、研究の進捗に伴ってゼロタッチの領域を拡大していきます。

    インタビューに答える3名

    編集後記

    ゼロタッチオペレーションのような構想は、NTTのみならずさまざまなキャリアが取り組もうとしているコンセプトだそうです。その中でも、NTTとして考えるインテリジェント・ゼロタッチオペレーションは、各研究所が持つ要素技術を組み合わせ、各処理で特徴的な部分を打ち出しているのが強みだと感じました。目指すのは完全に人の手を介在させない究極のゼロタッチですが、「最終ゴールはまだまだ先」とのこと。というのも個々の技術はそれぞれ商用トライアルや機能向上などに取り組み、技術確立を目指していく途上にあるからでしょう。そうしてレベルアップを果たしたものをもう一度持ち寄る形になれば、今の構想よりもさらに進化したゼロタッチオペレーションの仕組みが描かれるのかもしれません。

    2020年3月5日取材
    魁生 佳余子

    【参考情報】

    • 駒井友香・木村達明・小林正裕・原田薫明: "アクセスパターンに基づいたトラヒック予測手法"、信学技報, vol. 119, no. 158, IN2019-22, pp. 43-46, 2019年8月(トラヒック分類予測の参考文献)

    関連するコンテンツ