更新日:2019/12/12
※記事本文中の研究所名が、執筆・取材時の旧研究所名の場合がございます。
ビッグデータの利活用において、「匿名化」が今後大きな鍵を握るとされています。「匿名化」を簡単に言うと、情報から個人を特定できないように加工を行うことです。本人の同意を得ずに活用できる匿名加工情報を作成するための技術「匿名化」ですが、情報化社会の現代において、氏名や住所、年齢などを削除するだけでは個人を特定できる恐れがあるため、「匿名化」は難しいとされています。購買履歴やGPSデータなどあらゆるデータを集めれば、個人を特定しやすくなるです。かといって、あまりに削除しすぎると情報としての利用価値が低下してしまいます。利用価値を損なうことなく、個人の特定がされないようにするにはどうすればいいのか。そんな課題に取り組み、誕生したのが「匿名加工情報作成ソフトウェアV2.0」です。本ソフトウェアではプライバシー漏洩のリスクを排除しながら、分析対象として有用な情報を得られることができます。今回は、これらを開発するに至った背景からソフトウェアの特徴についてお伺いしました。
個人情報をマーケティングなどに活用するためには、本人に利用目的の同意を得る必要があります。新たな利用目的でデータを活用する場合は同意を取り直す必要があり、時間やコストなど膨大な労力がかかっていました。しかし2017年5月の改正個人情報保護法の施行により状況は大きく変わりました。個人情報を「匿名加工情報」に加工すれば本人からの同意がなくても目的外利用や第三者への提供ができるようになったため、匿名加工情報が新ビジネスとして注目されています。
「匿名加工情報」とは、「特定の個人を識別することができないように個人情報を加工し、当該個人情報を復元できないようにした情報」です。加工の一例をあげると、氏名など個人の特定に直結するような情報の削除、住所であれば市町村レベルに留める一般化、その他、ノイズを加えることや別の値への置き換えるランダム化などがあります。「匿名加工情報」の作成には、委員会規則の1号から5号の全てに対応させ、都度リスクを鑑みて適切に処置する必要があります。
個人情報の新たな活用手法として期待されている匿名加工情報ですが、課題もあります。先述の通り、匿名加工情報の作成には1号から5号を満たす必要がありますが、何をもって「匿名加工情報」と判断するかを定量的に定められておらず、最終的にはデータの取り扱い者(データ加工者)に判断を委ねられます。次の課題は情報の「有用性」です。匿名性を高めるためにはより多くの加工が必要とされます。しかし、匿名性の確保のために情報を加工すればするほど、元データからかけ離れ、情報の利用価値、つまり「有用性」が下がってしまいます。匿名性と有用性はトレードオフの関係にあり、この関係性をいかに両立するかが難しい課題です。
我々は、法律の改正前から個人が特定できない情報に加工したいというニーズをキャッチしており、約10年前からプライバシー保護技術の研究開発を進めていました。これまで蓄積した技術と知見を用いて、NTT独自技法を含む豊富な加工技法や評価技法を実装したソフトウェアを開発しました。できるだけ匿名性を高くしたいというデータ加工者と分析に耐えられる情報がほしいという情報利用者の両者のニーズを両立させるためのソフトウェアが、「匿名加工情報作成ソフトウェアV2.0」です。
ライフスタイルの多様化によって、顧客の趣味嗜好に合わせた商品やサービスの提供が求められる時代となりました。また、顧客側においてもインターネットには大量の情報であふれており、自身に合う情報を見つけ出すことが困難となっています。そこで注目されているのがパーソナルデータの活用です。たとえば購買履歴からユーザ層の細かなセグメント分析をして、精度の高いレコメンドを送れるなど、マーケティング等で大きな効果を期待することができます。しかしプライバシーの保護が欠かせず、取り扱いが難しい情報でもありました。「匿名加工情報作成ソフトウェアV2.0」では、個人情報を分析データとしての価値を失わずに、プライバシーを高度に保護したまま利活用できるように加工することができます。ニーズに応じた匿名加工情報を作成するためには、加工の度合いを調整する必要があります。本ソフトウェアでは、データ加工はもちろんのこと、加工データを評価して、もしデータの利用目的に合致しない場合はさらに加工するなど、加工と評価の試行錯誤を効率的に実施することができます。
大きな特徴のひとつとしては、NTT独自の匿名化技法「Pk-匿名化」が挙げられます。従来の匿名化技術「k-匿名化」と比べて、加工によって有用性が低下することを防ぐことができ、データの加工と評価を繰り返しても十分に利用価値の高いデータを作成できます。ちなみに「k-匿名化」とは、k-匿名性という個人が特定されるリスクを1/k以下に下げる技術であり安全性の指標を満たすようにデータを加工する技法。たとえば、k=3にすれば、3人以上にしか絞り込めない加工情報となり、kの値が大きいほど安全性の高いデータとなります。
ただし、k-匿名化を単純にデータへ適用した場合、匿名性を向上させるほど情報としての利用価値が低下するという課題にぶつかってしまいます。たとえばk=5とした場合でも、データの属性が多いほど、個人が特定されやすくなり、安全なデータを作成しようとすると、どうしても情報を削除せざるをえないケースが現れ、分析対象のデータが削除され有用性が低くなってしまいました。これらの課題を解決するための研究開発によって誕生したのが「Pk-匿名化」です。
「Pk-匿名化」は、データの一部分を確率的に書き換えるランダム化の処理と、元の状態を推定する再構築という処理により、理論的にk-匿名性を満たしつつ、元のデータの統計的性質をなるべく保った有用性の高いデータを作成する技術です。元データの属性値を確率的に入れ替えることで匿名性を高めるのですが、これまではどれだけノイズを入れたら安全なのかが分かりませんでした。しかし、NTTは、K-匿名性と同様の安全性を確保できる最小のノイズの入れ方を世界で初めて数学的に証明することに成功しました。
本ソフトウェアを使えば、仮にk=2にしたい場合にどれだけのノイズを入れるべきかというパラメータが表示され、それに応じてデータをランダム化すれば、情報を一般化したり削除したりすることなく、データの有用性が損なわれにくい匿名化データを得られます。
補足として、NTTでは「k-匿名化」を使わずに「Pk-匿名化」だけを推奨しているわけではありません。情報が削除されていてもいいので正しい情報だけで分析したい人もいれば、少しノイズが入ったとしてもデータのボリュームが欲しい人もいます。あくまで情報をどう使いたいかという分析目的に合わせて匿名化技法を選べるソフトウェアとなっています。
新ビジネスとして注目されていることもあり、匿名加工情報を作成するソフトウェア開発に取り組む企業は国内外にあります。「安全に加工する技術」に注目されがちですが、安全性を加味した上で我々がこだわっているのは、あくまで「安全かつ使える匿名加工情報」です。「匿名加工情報作成ソフトウェアV1.0」では匿名加工情報の加工に求められる機能を具備していましたが、V2.0へのバージョンアップにより更なる高度化を実現できましたので、「Pk-匿名化」以外の特徴をいくつか紹介します。
匿名化技法においては、冒頭にお伝えした個人情報保護法に記載されている全ての匿名化技法を網羅しているだけでなく、合わせて35種類の加工技法を搭載しています。
余談ですが、NTT研究所は学会で行われている匿名加工・再識別コンテスト(PWS Cup)において3年連続で企業トップとなる技術力を有しています。これまではコンテストの参加者側でしたが、現在は運営事務局側の主幹メンバとして参画、国内匿名化研究の活性化・認知度向上の推進に貢献しています。これらの実績により、自信をもって匿名加工情報に大切だと思われる技法を取り揃えていると言えるのも、特徴のひとつです。
加工技法の操作や評価結果の表示を使いやすいグラフィカルユーザインタフェースで提供します。匿名性と有用性のバランスをグラフで確認することができるなど、見やすくわかりやすい操作によって、効率的な匿名加工情報の作成を支援します。
匿名加工情報のビジネスシーンにおいて、スタンドアローンの導入だけでなく、外部システムと連携したいニーズもあることがわかっているため、外部システムの組込用APIを実装しています。
個人情報を扱うため、もし何かあったときに適切に加工していたのか、公的機関から証跡の提示を求められることがあります。そのためどのような手順で加工したのかを追える証跡ログ出力機能と、最終的にどのような加工をしたかのサマリをレポートとして出力する機能を搭載しています。
「匿名加工情報作成ソフトウェアV2.0」は、NTTテクノクロスより商用版を販売しています(参照:https://www.ntt-tx.co.jp/products/anontool/)。医療業界や金融業界からの引き合いが多いと聞いています。自治体が管理しているデータを民間に適切に開放して経済発展につなげていこうとする動きもあり、自治体などからのお問い合わせも増えております。
ただ、新しく始まったビジネスということもあり、現時点ではデータ加工・評価技法を適切に使いこなす知識やスキルがまだまだ普及していません。技法を追加したいという要望に対応できるよう、V2.0の開発時には、技法を新たに追加できるインタフェースを設けており、本ソフトウェアの使用者に加工技法をつくってもらえるようにできています。加えて、技法が豊富に増えたこともあり「どの技法をどうやって使えば適切なのか教えてほしい」というニーズをキャッチアップしていますので、あまり知識がない方でも直感的に使えるような技術の研究をしています。
さらには、現状で作成された匿名加工情報から個人が特定できなくとも、テクノロジーが進化する5年後、10年後には特定される可能性があります。法律の改正や海外の市場にどう対応させるかなどもありますので、実用性を評価しながら、商用品質向上や機能の更なるブラッシュアップをはかっていきたいですね。
個人情報の取り扱いはセンシティブなものであり、プライバシー性を保ちながら、利用価値をできるだけ下げないように情報を加工するというのは、お話を聞いているだけでも難しい問題だなと実感しました。そんななかでNTT独自技術の「Pk-匿名性」の理論構築は、ビジネス市場拡大に向けた大きな一歩でとなるのではないでしょうか。
個人情報取扱事業者にとってはビジネスチャンスとなりえると言えますし、匿名加工情報を有効活用するためには欠かせない本ソフトウェアにもまた、大きな可能性を感じました。
2019年10月16日取材
田邊 宏明