更新日:2020/9/14

    言葉の難しさを測る─テキストの難易度と人の語彙数の推定藤田 早苗(ふじた さなえ)
    NTTコミュニケーション科学基礎研究所

    NTT技術ジャーナル2020年9月号:特集「AIと脳科学であなたをもっと知る―人に迫り人を究めるコミュニケーション科学」より

    難しさを測る意味

    文字を覚えたての子どもが自分で読むつもりで選んだ絵本が読めず、読んであげることになったことはありませんか。中学1 年生のときとても苦労して読んだ英文が、大学生になるころにはとても簡単に感じられたことはありませんか。同じ文を読もうとしても、難しいと感じるか易しいと感じるかは、読み手の知識量に依存します。
    もし、読み手にとってちょうど読めるくらいの、あるいは少し頑張れば読めるくらいの絵本や本、英文を薦めることができれば、無理なく読み手の知識を増やしていけるかもしれません。しかし、「ちょうど読めるくらい」や「少し頑張れば読めるくらい」を判断するのは簡単ではありません。人の知識量と文(テキスト)の難易度の両方を適切に推定する必要があるからです。
    本稿では、この両方の推定方法の研究と、 推定を支える言語資源の構築について紹介します。

    人の語彙数を測る

    人に必要な知識の1 つとして語彙の知識が挙げられます。NTTでは20年以上前から、 さまざまな年代の人の語彙数の調査や推定に取り組んできました。
    幼児を対象とした調査では、語彙数自体は多くないので、理解・発話できるすべての語彙を調査することも不可能ではありません。 実際私たちは、1500組以上の親子モニターの皆様にご協力をいただき、子どもがいつごろどのような語を覚えるか、発話できるかというデータを蓄積し、幼児語彙発達データベースを構築してきました。
    しかし、小学生以上となると、知っているすべての語彙を調査することは困難です。そこで、提示した語を知っているか回答してもらうことにより、語彙数を推定します。提示する語は多ければ多いほど正確な推定ができますが、数十語でも推定可能です。
    この推定方法では、ある語を知っていると回答したときに、何語知っていると仮定するかがポイントとなります。例えば「しょっぱい」と「検潮儀」だと、「検潮儀」のほうが知っている人は少ないでしょう。そのため、 「しょっぱい」だけを知っている人より「検潮儀」も知っている人のほうが、より多くの語を知っていると仮定します。では、「検潮儀」を知っていれば何語ぐらい知っていると仮定できるのでしょうか。その仮定の根拠となるのが、次に紹介する「単語親密度」です。

    単語親密度データベース

    「語のなじみ深さ」を評定実験によって数値化したものを「単語親密度」と呼びます。 語に付与された数値が大きければ大きいほど、 多くの人になじみのある語であり、数値が小さければ小さいほど、多くの人にとってなじみのない、あまり知られていない語であることを示します。
    NTTでは20年以上前から単語親密度データベースなどの基盤的言語資源の構築に取り組んできました。過去に構築した約7 万7 千語からなる平成版の単語親密度データベースは、NTTデータベースシリーズ「日本語の語彙特性」として公開され、心理学や言語教育、言語聴覚療法分野などの基礎指標として幅広く活用されてきました。しかし、調査から時間が経ち、単語親密度自体が時代とともに変化した可能性もあり、新しく出現した語(「インターネット」や「コンビニ」など)に対応していないといった問題もありました。
    そこで、再調査と新しい語の追加調査を実施し、令和版単語親密度データベースとして約16万3 千語という過去最大のデータベースを構築しました(1)。さらに、平成版単語親密度からの変化を調査し、両者に強い相関があり、多くの語では20年以上経っても親密度に大きな変化がないことを確認しました。一方で、大きく変化した語も一部存在すること、 どういった語が大きく変化したかを明らかにしました(図1 )。…

    図1 平成版から令和版への単語親密度の経年変化
    図1 平成版から令和版への単語親密度の経年変化

    ■参考文献

    1. (1)藤田・小林:“単語親密度の再調査と過去のデータとの比較,” 言語処理学会第26回年次大会, 2020.

    関連するコンテンツ