TsuKuBa 年史-TsuKuBa History -

  • TsuKuBa年史ホーム
  • 技術一覧
  • 年表

ネットワーク障害対応を自動化するルール学習型障害箇所推定・対処支援技術

2020年(令和二元年)

  • オペレーション技術 >
  • ネットワーク障害対応を自動化するルール学習型障害箇所推定・対処支援技術
  • 文字サイズ
  • 小
  • 大

NTTアクセスサービスシステム研究所では、ネットワークの障害対応における分析・切り分け・復旧作業の迅速化による保守業務の負担軽減(OPEX削減)を目指した研究開発を行ってきました。
本技術では、まず何らかの設備やシステムにおいて障害が発生したときに、システムが発するアラームなど(以下、イベント)と障害の関係(以下、ルール)を導き出します。イベントとルールを照らし合わせることで、瞬時にネットワーク障害の原因箇所を推定することができるようになります。さらに、提示した障害箇所について、過去の対処実績から復旧方法に優先度を付けて提示します。
本技術は、イベントから障害の原因箇所や復旧方法を推定するシステムを構築可能な技術であり、幅広い分野での適用が可能な技術です。また、障害対応時の保守者ノウハウがルールという形で学習されるため、障害対応業務(保守者ノウハウ)の利活用可能なナレッジ化に寄与することが可能です。

■障害箇所推定のポイント
本技術で扱う障害箇所推定のルールは、ある条件とそれらが成立したときに導き出される結論を「if 条件 then 結論」という形式で構成したものです。このルールをネットワーク障害に適用する場合、障害が発生した際にネットワーク装置などから発せられるアラームやログ情報などのイベントの組み合わせ(イベント群)をif 部、障害の要因およびその箇所をthen 部としてルールを定義します。障害が発生した際にイベントの発生状況とルールを照らし合わせることで、効率的に障害の原因箇所(候補)を判定することができます。
保守者は判定結果から原因箇所である可能性が高い候補から障害対応を実施することで、これまで時間がかかっていたアラーム分析や切り分け試験などの稼働が削減されるとともに、保守者のスキルによらない対応が期待できます。
これまで、ルールを固定的に与えて障害を推定する技術はありましたが、保守者が分析した障害対応の履歴などから、ルールそのものを自動的に作り出したり、修正したりする技術はありませんでした。本技術では、保守者が障害対応した結果をフィードバックすることで、ルールを自動学習(定義すべきイベントを選定・適正化)します。

本技術のポイントとなるのが、さまざまな障害ケースにおける障害固有のアラームの組み合わせを抽出するアルゴリズムです。障害ケースごとに発生しているイベント群を比較し、各障害ケースで固有なイベントの組み合わせの抽出を実現しました。本アルゴリズムにより抽出された固有のイベント群を基にルールの学習を行います。

ルール学習の簡易な例(図)としては、まず、障害αのケースが発生すると、障害α固有のアラームを抽出し障害αを判定するルールを生成します(図(a))。次に、障害βのケースが発生すると障害α、障害βそれぞれの障害ケースでしか発生していないアラームの組み合わせを抽出し、障害βを判定するルールを生成します(図(b-1))。同時に障害αに対しても固有なアラームの組み合わせを見直し、ルールを修正します(図(b-2))。このように、障害ケースが増えるたびに、過去に発生したすべての障害ケースを含めて、ルールを自律的に導出・適正化します。


ルール学習の仕組み

図 ルール学習の仕組み


■故障箇所に対する対処方法提示技術のポイント
ルールにしたがって提示した障害箇所について、障害箇所と要因だけでなく、過去の対処実績から復旧方法に優先度を付けて提示します。学習を通じてルール化された障害ケースそれぞれに対して、有効な復旧方法候補を登録しておき、さらにそれらの復旧方法の実施履歴を登録します。これらの登録情報をもとに、障害箇所を推定・提示したタイミングで、復旧方法候補それぞれについて、障害箇所となった設備の属性情報とそれまでの実施履歴とを照らし合わせ、作業回数や作業見込み時間を元にした復旧完了への近さを確率的に評価し、優先度を付けて提示する機能を実現しました。

PAGE TOP