テキストマイニングとは?その手法や利用技術、活用例を紹介

      ITやインターネットの発達を背景に、人間が利用できるテキストデータは増え続けています。これらのテキストデータから有用な情報を抽出するために活用できるのがテキストマイニングです。

      では、テキストマイニングとはどのような技術なのでしょうか。また、どのように活用できるものなのでしょうか。本稿では、それらについて具体的な例を踏まえてご紹介します。

      このオウンドメディアは、NTT宇宙環境エネルギー研究所がサポートしています。

      1. テキストマイニングとは

      まず、テキストマイニングの概要を簡単に解説します。

      1-1. テキストマイニングとは、テキストから価値を抽出すること

      テキストマイニングとは「テキスト:文章」+「マイニング:採鉱」という言葉のとおり、文章のなかから有用な情報を抽出する手法です。データのなかから有用な情報を抽出する「データマイニング」の一種に位置付けられます。

      ITやインターネットが発達し、活用できるデータ量は増え続けています。企業内やWeb、SNS、官公庁など、さまざまな場所にいわゆる「ビッグデータ」として大量のテキストが存在します。

      これらのテキストから価値のある情報を抽出することは、学問・ビジネス・政策立案などさまざまな場面において有効なアプローチです。実際に、テキストマイニングはいわゆる理系領域・文系領域を問わず、研究機関やビジネスの現場などで幅広く利用されています。

      1-2. テキストから価値を抽出するには、データの構造化が必要

      テキストから価値のある情報を抽出できるテキストマイニングですが、実施においては難しさもあります。テキストマイニングで最も難しいのは、テキストが「非構造化データ」である点です。
      非構造化データとは、そのままでは集計や加工などの分析ができないデータのことであり、テキストもそのままでは分析することはできません。

      たとえば、クラス内におけるテストの点数であれば、簡単に平均や標準偏差などを算出できるでしょう。こうしたデータは「構造化データ」と呼ばれます。
      一方で、テキストデータに対して平均や合計を算出したい場合、そのままの状態ではできません。

      テキストデータを分析するためには、まず非構造化データである文章を単語に分割し、各単語の評価を行える構造化データに変換する必要があります。これがテキストマイニングを実施する上での重要なポイントです。

      1-3. テキストマイニングと自然言語処理

      非構造化データから構造化データへの変換を行う際には、「自然言語処理」と呼ばれる技術が用いられます。そのため、テキストマイニングを実施する上では、自然言語処理の知識が必須となります。

      自然言語処理とは、国立研究開発法人産業技術総合研究所の文献によると「人が書いたり話したりする言葉(=自然言語)をコンピューターで処理する技術」と定義されています。自然言語処理はいわゆるAI関連技術のひとつであり、チャットボットの構築やニュース記事の自動生成、機械翻訳など、幅広い領域で活用されています。

      上述のように、自然言語処理は人が書いたり話したりする言葉をコンピューターで処理する技術です。そのため、日本語や英語、アラビア語などの言語ごとに特有の難しさが存在します。たとえば、日本語の場合、特有の難しさとして「単語間の切れ目がわかりにくい」という点が挙げられます。

      日本語に精通した方であれば、日本語の文章を読む際に単語の切れ目を容易に判断できます。たとえば、「今日はいい天気です」という文章は、「今日は」「いい」「天気」「です」と単語にわけて理解できます。しかしながら、コンピューターにはそのようなことはできません。そのため、後述する「形態素解析」と呼ばれる自然言語処理技術を用いて、文章を単語に分割する必要があります。

      近年では、ディープラーニングの登場に伴い、自然言語処理の精度も大きく向上しました。
      インターネット上で機械翻訳を利用した経験がある方は、翻訳された文章の自然さや正確性を目にしていることでしょう。また、OpenAI社の「ChatGPT」など大規模LLM(大規模言語モデル)も新たな技術として注目されています。
      自然言語特有の難しさを解決し、テキストから価値のある情報を抽出するために、自然言語処理は有効な武器となります。

      2. テキストマイニングの手法

      次に、テキストマイニングの手法を見ていきましょう。これから紹介する手法は、テキストマイニングに欠かせない自然言語処理においても代表的な手法といえます。

      2-1. 形態素解析

      日本語の文章を分析する際に、まず実施しなければならないのが「形態素解析」です。形態素解析とは、文章を単語に分割する技術をさします。上述したとおり、日本語には単語間の切れ目を判断しにくい特徴があります。

      たとえば「すもももももももものうち」という文章は、「すもも/も/もも/も/もも/の/うち」というように単語に分割できますが、文章のままではコンピューターに処理させることはできません。コンピューターが処理できる構造化データに変換する必要があります。

      形態素解析では、文章を単語に分割し、名詞や動詞といった品詞情報を付与します。

      形態素解析(画像出典:独自作成)

      形態素解析後は、登場した単語の意味をベクトルの形であらわした「単語の分散表現(単語ベクトル)」という形で扱うことが一般的です。たとえば、先ほどの「すもももももももものうち」を形態素解析し、単語ベクトルに変換すると以下のようになります。

      単語ベクトル(画像出典:独自作成)

      計算した結果、たとえば「すもも」という言葉は{0.8,0.3}のようなベクトル表現となり、「もも」は{0.7,0.4}となったとしましょう。このように値が近い両者は、意味的に近い概念であると考えられます。

      文章を単語ベクトルに変換すれば、構造化データとして扱いやすくなるというメリットがあります。
      形態素解析を実施する上では、ツールを利用することが一般的です。実務においては「MeCab」などのツールがよく利用されます。

      2-2. 構文解析

      次に、各単語間の関係性を調べます。日本語においては、「構文解析(係り受け解析)」として単語間の修飾・被修飾関係に注目して分析を行うケースが多く見られます。

      たとえば「田中は佐藤が読んでいた本を渡した」という文章には、どのような係り受けの関係性があるでしょうか。本稿を読んでいる方であれば、本を渡したのは田中であり、その本は佐藤が読んでいた本だと理解できるでしょう。

      しかし、コンピューターで処理するためには、このような係り受け関係もあらかじめ分析しなければなりません。単語間の関係性を分析することで、文章の意味を正確に理解できるようになります。
      構文解析においても、形態素解析と同様にツールの活用が有効です。「Cabocha」などのツールがよく利用されます。

      2-3. 辞書の整備と活用

      ここまでの解説で、テキストは形態素解析や構文解析によって構造化データに変換できることがわかりました。ここから価値のある情報を抽出していくためには、もう少し処理を行う必要があります。

      テキストから情報を抽出する際に有効となるのが、辞書の活用です。辞書の活用方法はさまざまですが、たとえば類義語辞書を使うことで、違う表現であるものの同じ内容であるテキスト、いわゆる「表記ゆれ」に対処できます。

      ここでは、類義語辞書の活用例として、SNS上での自社商品の評判分析を取り上げます。SNS上の各ユーザーは、必ずしもその商品を同じ表記で投稿しません。商品の略称や通称など、さまざまな表記を使用します。商品に対する言及を調査するためには、その商品の略称や通称などを同一のものとみなす必要があります。そこで役立つのが類義語辞書です。

      一般的な辞書であれば、すでに存在するものを利用できますが、商品名などの企業や業界特有の単語については、対応している辞書が存在しないこともあるでしょう。そのような場合は、まず辞書を作るところからはじめていきます。

      2-4. 応用的な処理

      実際にテキストから価値を抽出する際には、さらに応用的な処理が必要です。文章の持つ意味を分析する「意味解析」や、文章同士の関連性を分析する「文脈解析」など、さまざまなアプローチが存在します。

      一例として、「感情分析」の方法を見ていきましょう。SNS上で商品の評判を分析したい場合、商品に対して言及されたSNSの投稿を抽出した上で、それらの内容がポジティブもしくはネガティブかを分析するアプローチが有効です。

      感情分析は、文章に含まれる各単語が、ポジティブまたはネガティブであるかを評価する分析手法です。形態素解析で分割した単語に対して、単語のポジティブ・ネガティブ度合いを設定した辞書を当てることで実現できます。

      たとえば、「うれしい」「楽しい」「便利」といった言葉はポジティブなものと捉えられます。これらの単語が多く含まれている投稿内容であれば、商品に対しても好意を持っていると考えられるでしょう。

      感情分析のような応用的な処理の実現において、近年注目されているのが「BERT」です。BERTはGoogle社が2018年に発表した自然言語処理モデルであり、BERTの活用により翻訳や文章分類などの精度が大幅に向上しました。本稿では詳細は割愛しますが、ご興味のある方はぜひBERTについても調べてみてください。

      3. テキストマイニングの活用例

      最後に、テキストマイニングの具体的な活用例を紹介します。

      3-1. アンケート・問い合わせ分析

      よく見られるのが、アンケートを行った際に、自由記述をしてもらった内容の分析をテキストマイニングで実施するケースです。アンケート件数が少なければ手作業でもスムーズに集計・分析できますが、大量のアンケートを行った場合、すべてに目を通して分類作業を行うことは容易ではありません。そこで、テキストマイニングによりアンケート結果の傾向を捉えるアプローチが有効です。

      ビジネスの現場においては、コールセンターでの対応内容やメールでの問い合わせ内容などから、消費者の声を分析するためにテキストマイニングが活用されています。この結果をもとに、消費者からどのような意見が届いているのかを分析し、新商品の開発につなげることも可能です。

      3-2. SNS分析

      SNSには大量のテキストが存在します。大量のテキストデータに対してテキストマイニングを実施することで、有用な情報の抽出が可能です。

      ある製品に対する評判分析を行ったり、イベントの盛り上がり状況を可視化したりするなど、SNS上のテキストを活用したテキストマイニングはさまざまな分野で活用できます。テキストマイニングに加えて、SNSに添付されている画像や映像を解析し、より詳しく内容を分析するような取り組みも可能です。

      3-3. ナレッジ分析

      大学や企業など、組織内に眠っている暗黙知を可視化する際にもテキストマイニングは有効です。近年では、ナレッジマネジメントとして企業内の知見を可視化し、活用していく取り組みが進んでいます。
      従業員の経歴や業務経験などをテキストマイニングにより分析し、従業員が持っているスキルを可視化することもできます。

      また、人手不足が課題となっている工場においては、知識継承を目的として暗黙知を可視化するために、テキストマイニングにより知識を抽出する取り組みも進んでいます。

      3-4. 未来予測

      未来予測にもテキストマイニングを活用できます。

      たとえば、NTT宇宙環境エネルギー研究所では、ESG(Environment=環境・Social=社会・Governance=企業統治)を踏まえた経営戦略の立案を実施するために、テキストマイニングを活用しています。

      世界各国の脱炭素への最新の取り組みや、ウクライナ情勢に起因したエネルギー危機などの現状をテキストデータとして収集し、それらのテキストからトレンドを抽出します。市場影響度や不確実性といった軸で事象を整理し、ESG経営の戦略立案に活用しています。

      ●NTT宇宙環境エネルギー研究所の取り組みについて詳しくは、こちらの記事をご覧ください。
      しなやかな社会の実現に向けた環境負荷ゼロと環境適応への取り組み 地球環境と人間社会の未来予測技術

      テキストマイニングによる情報抽出は、手動によるデータ解釈と比較して客観性を高められるメリットがあります。機械的に情報を抽出するため、分析者によるバイアスもかかりません。また、分析速度を向上できる点でも有効な手法です。

      4. まとめ

      • テキストマイニングとは、データのなかから有用な情報を抽出するデータマイニングの一種。
      • テキストから価値を抽出するにはデータの構造化が必要で、自然言語処理と呼ばれる技術が用いられる。
      • 自然言語処理とは、人が書いたり話したりする言葉(=自然言語)をコンピューターで処理する技術。AI関連技術のひとつであり、チャットボットの構築やニュース記事の自動生成、機械翻訳など、幅広い領域で活用されている。
      • テキストマイニングの代表的な手法として、形態素解析や構文解析、辞書の整備、応用技術である意味解析や文脈解析などがある。これらは自然言語処理において現在も欠かせない手法のひとつといえる。
      • テキストマイニングに用いられる自然言語処理やAI関連技術の進歩は早く、これらの技術を活用した社会実装も進んでいる。
      • テキストデータを含めたデータ活用は、ビジネスのトレンドとしても注目度が高まっている。
      • テキストマイニングは、アンケート・問い合わせ分析、SNS分析、ナレッジ分析、未来予測などさまざまな場面で利用できる。

      参考文献

      日本電信電話株式会社外からの寄稿や発言内容は、
      必ずしも同社の見解を表明しているわけではありません。

        Share

      このオウンドメディアは、NTT宇宙環境エネルギー研究所がサポートしています。

      NTT宇宙環境エネルギー研究所のサイトへ

      NTT宇宙環境エネルギー研究所の研究内容を見る