ナレッジグラフとは?特徴や作り方、活用法をわかりやすく解説
ナレッジグラフとは、さまざまな知識(=ナレッジ)を体系的に連結し、グラフ構造で表した知識のネットワークです。先行する研究は1960年代から行われ、近年ではAIの実用的な基盤技術としてさまざまな領域で活用されるようになっています。ナレッジグラフの活用により、これまでは機械処理が難しかった自然文やSNSの投稿、音声など非構造化データについても機械処理が可能となります。
この記事では、ナレッジグラフの概要と活用例や作り方、構築法などについてご紹介します。(公開日:2021/12/06 更新日:2024/03/25)


1. ナレッジグラフとは?
ナレッジグラフとは、さまざまな知識(=ナレッジ)を体系的に連結し、グラフ構造で表した知識のネットワークです。ナレッジグラフを用いればデータの連携・統合や知識の発見、あるいは高度な分析などが可能となり、プロセス最適化や意思決定の支援にもつながります。そのため、蓄積された多くの知識を基盤とするさまざまな専門領域への応用が期待されています。
2012年には、インターネットの検索エンジンにナレッジグラフが導入されました。下の図にあるとおり、検索結果の表示ページで右上部に表示されるのが、ナレッジグラフから取得された情報「ナレッジパネル」です。

上図にあるように、検索キーワードの正式名称や概要、子会社、CEO、株価、本部所在地、創設者、設立年月日などの詳細がナレッジパネルに記載されています。さらに、プロフィールとして各SNSへのリンクも掲載されています。
このナレッジパネルのもとになる情報は、Wikipediaをはじめとするウェブ全体で共有されているデータ、オープンソースデータベースなどの情報源から取得されます。また、それだけでなく、Googleがライセンス契約を結んださまざまなデータ提供元から、スポーツの成績や株価、天気予報などの情報も直接取得されています。蓄積・利用している知識の総数は、2020年の時点で、エンティティ(実在する物事)が約50億以上、そのエンティティについての事実情報は5,000億以上とされています。
朱成敏ほか『ナレッジグラフ構築のモデル化に関する考察』によれば、ナレッジグラフに先行する研究は、1960年代後半からはじまっています。この研究は、人間の専門家(エキスパート)の意思決定能力を模倣する人工知能「エキスパートシステム」の開発における技術基盤として進められましたが、知識量の蓄積に限界があったことが一因となり、しばらく沈静化していました。
ところが、近年のインターネットの発展により膨大な知識にアクセスできるようになったことで、再び研究が脚光を浴びることになりました。情報をより効率的に活用できる仕組みとして、タグを利用した意味関係の定義や、ハイパーリンクを用いた情報の連携などを備えた「Semantic Web」の提案、あるいはSemantic Webで提案された技術を実装し、多数のデータを連携させることにより大規模データとして利活用できる仕組み「Linked Data」の登場などもありました。
現在ではLinked Dataなどさまざまなものがナレッジグラフと呼ばれ、ナレッジグラフは「グラフ化した知識」という意味で一般に認識されています。
ナレッジグラフの活用により、これまでは機械的な処理が難しかった折衝・履歴データなどの自然文や、SNSの投稿、音声などの非構造化データの処理が可能となります。また、データ整備の一部は自動化でき、大量のデータを迅速に扱うことが可能です。
そのため、多様な分野の知識を表現するナレッジグラフが開発され、知識を必要とするさまざまな現場へ適用されるようになっています。
2. ナレッジグラフの活用例
ナレッジグラフの活用例についてNTTデータ『ヒトの思考ロジックをなぞらえる「ナレッジグラフ技術」』を参考に、契約書リスクチェックを例に取って見てみましょう。
2-1. 契約書リスクチェックの概要
契約書を企業が他社と取り交わす際には、自社に不利な契約条項がないか、契約内容が自社の目的に合致しているか、関連する契約書との整合性は取れているか、あるいはトラブル発生の可能性はないかなど、契約内容のリスクチェックが必要です。
リスクチェックは一般に会社の知的財産室や弁護士などが行いますが、チェックと修正の繰り返しにより契約までに時間がかかってしまうこともあります。
ナレッジグラフを活用した契約書リスクチェックのツールを用いて、契約書の文書構造を解析し、解析した契約書の内容とリスクチェックの観点を紐付けることにより、リスクが存在する箇所を特定します。また、その箇所がなぜリスクとなるかについても併せて確認可能です。
2-2. 契約書リスクチェックのナレッジグラフ
契約書リスクチェックのナレッジグラフは、以下の2つを行います。
- 業務文書内の単語間の関係を解析する
- 解析された各単語に業務上の概念を意味付けして結びつける
下の図は、ライセンス契約の契約書内に、以下の条文があった場合の解析結果例の概要を示したものです。
「9条 乙および甲は8条に記載の期日から10日以上遅延した場合、遅延損害に対して500万円を支払うものとする」

上の図において青色で描かれた部分は、ナレッジグラフが契約書を解析することにより抽出した単語とその関係(インスタンス)、そして緑色で描かれた部分は業務で必要となる知識・ノウハウを体系化したもの(オントロジー)です。
ナレッジグラフは契約書の解析により、単語「遅延損害」と「500万円」が「金額」という関係にあることを理解しています。また、インスタンスとオントロジーを紐付けることにより、「遅延損害」が「損害賠償」について書かれていると解釈します。
このナレッジグラフを活用すれば、条文に関する判断を行うことも下の図のとおり可能となります。

上図のように、「期日から5日遅延した場合」には、損害賠償金の支払いは必要ないとナレッジグラフは判断します。また、同様に「20日」の遅延なら、500万円の支払いが必要と判断できます。
以上はごく簡単な例ですが、ナレッジグラフの活用により、条件などを伴う情報を明示的に解析できます。
また、契約書チェック以外にも、整合性チェックやマニュアル検索などに必要となる細かな観点でのチェックや、文書ごとに表現が異なる情報の検索などへの活用が期待されます。
3. ナレッジグラフの作り方・構築法
ナレッジグラフの作り方と構築法について、朱成敏ほか『農業ナレッジグラフの構築に関する考察による領域ナレッジグラフの構築モデルの提案』を参考にご紹介します。
上の文献で実際に構築したのは、表題にあるとおり農業分野のナレッジグラフです。構築のプロセスは、大きく以下の3つにわかれます。
- 農作業基本オントロジーの構築
- 農作物語彙体系の構築
- 農作業基本オントロジーと農作物語彙体系の連携
また、上の文献では特定領域のナレッジグラフの構築モデルも提案されています。それぞれの概要を見ていきましょう。
3-1. 農作業基本オントロジーの構築
農作業基本オントロジーは、農作業名における標準語彙です。構築のプロセスは以下の9つとされています。
(1)問題の認識
近年の農業現場にはさまざまな農業ICTシステムが普及しており、これらのデータを連携・統合して分析すれば、作業の最適化などが図れます。
しかし、各データは独自の方針で作成され、連携・統合が困難だったため、標準語彙が必要となりました。
(2)調査
農作業名とその定義に関する現状を理解するため、関係資料と関係者の打ち合わせを通じて調査が行われました。さまざまな関係資料には、情報の重複や不足、各資料間の定義の不在などがあり、一方農業現場では農作業名は利用者の自由入力に依存していることなどがわかりました。
また、資料によっては機械可読な形で公開されていないものもありました。
(3)タスクの設定
上の調査を踏まえ、以下のタスクが設定されました。
- 農作業の意味を定義
- 概念の構造化
- 表記の整理
- 機械可読性のある形式で公開
また、このタスク解決のためには、農作業のためのオントロジー構築が必要なこともわかりました。
(4)名称の収集
国や地方自治体の資料から、農作業の名称が収集されました。農作業基本オントロジー最新版(2019年当時)では475語が収録されています。
(5)設計と構造化
収集された農作業名に対し、「目的」「行為」「対象」「副対象」「場所」 「手段」「機資材」「時期」「対象作物例」「作業条件」の10属性により定義が行われ、また農作業間の関係性が10階層の階層構造により定義されました。
また、代表表記と同義語となる別名や英名も収録され、名称の多様性に対応しています。
(6)データ化
各農作業名は特定の名前空間(URI=Uniform Resource Identifier)を持ち、特定のサイトで運用されています。それぞれのURIで、表記や上位・下位概念、属性の内容などが表示されます。
(7)関連サービスの開発
既存のコンテンツやシステムの語彙を標準語彙に変換させるための語彙変換API、および農作業の意味を自然言語で説明する用語集が開発されました。
(8)検証と更新
各専門家に収録情報の検証を依頼するなどし、約3年間で6回の更新が行われました。
(9)社会的協力
農作業基本オントロジーは内閣官房『農業ITシステムで用いる農作物の名称に関する個別ガイドライン』に反映されました。
また、収録情報は誰でも自由に利用できるように公開されているため、国内外の各関係機関との連携も進んでいます。
3-2. 農作物語彙体系の構築
農作物語彙体系は、フードチェーンにおけるデータの連携・統合のために開発された標準語彙です。
フードチェーンでは近年の食品安全に対する社会的要望により、生産から加工・流通までの一貫した管理が期待されています。しかし、農作物は作物としての名称や品種名と・食品としての名称が異なるなど、フードチェーン各段階での名称が異なります。そのままでは管理システムの連携が困難なため、標準語彙が必要となりました。
ナレッジグラフの構築は上述の農作業基本オントロジーと同様のプロセスを経て実施され、公開も同一のサイトで行われています。
3-3. 農作業基本オントロジーと農作物語彙体系の連携
農業分野全般を見渡すと、農作業と農作物以外にも、農業機械や資材、設備などの関連語彙の整理が必要と考えられます。農業分野全般における知識体系構築に向けた今後の拡張の基盤とするため、農作業基本オントロジーと農作物語彙体系の連携が図られました。
農作業と農作物それぞれの語彙の互いの対応関係が整理され、2つのナレッジグラフへの対応関係がリンクとして表現されるようになりました。
3-4. 領域ナレッジグラフの構築モデルの提案
本文献では農業分野のナレッジグラフを構築した経験から、特定領域についてのナレッジグラフを構築する手順として、以下の4ステップからなるモデルを提案しています。
(1)知識の観察
まず、各領域で生み出されてきた勘と経験による知識を観察し、発生している課題の解決方法を考える。
(2)知識の体系化
関連資料の調査や現場との意見効果を通じて知識を整理、定義、あるいは再定義し、また体系化することにより、ナレッジグラフを構築する。
(3)知識のICT化
構築されたナレッジグラフはLinked Dataの形式でデータ化した上で、さらに現場での利活用が可能なように、必要な形式のデータ作成や関連サービスの開発を行う。
(4)知識の社会化
データと関連サービスを公開し、その領域の現場での利活用を推進する。
4. まとめ
- ナレッジグラフとは、さまざまな知識(=ナレッジ)を体系的に連結し、グラフ構造で表した知識のネットワークのこと。
- ナレッジグラフはAIの実用的な基盤技術として用いられるようになっている。
- 契約書リスクチェックのナレッジグラフは、抽出した単語とその関係(インスタンス)と、業務で必要となる知識・ノウハウを体系化したもの(オントロジー)を紐付けることにより契約書を解析する。
- 領域ナレッジグラフの構築手順は、1. 知識の観察、2. 知識の体系化、3. 知識のICT化、4. 知識の社会化、と提案されている。
参考文献
- Google『Googleのナレッジグラフの仕組み-ナレッジパネルヘルプ』
- Google『Google Japan Blog: Google検索のナレッジグラフとナレッジパネルとは』
- NTTデータ『ヒトの思考ロジックをなぞらえる「ナレッジグラフ技術」』
- 一般社団法人人工知能学会"人工知能学会第二種研究会資料"2019巻(2019)SWO-047号『農業ナレッジグラフの構築に関する考察による 領域ナレッジグラフの構築モデルの提案』朱成敏ほか
- 一般社団法人人工知能学会"人工知能学会第二種研究会資料"2020巻(2020)SWO-051号『ナレッジグラフ構築のモデル化に関する考察』朱成敏ほか
- 人工知能学会人工知能学会SWO研究会ワークショップ「ナレッジグラフ推論チャレンジ2019技術勉強会」『ナレッジグラフ入門』
日本電信電話株式会社外からの寄稿や発言内容は、
必ずしも同社の見解を表明しているわけではありません。