単語親密度データベース

単語親密度データベースについて

単語親密度とは語のなじみ深さを被験者実験により評定したものです。単語親密度は、1から7の間の数値で表されており、大きな数値になるほどなじみ深い語であることを示しています。
NTTでは1995年から単語親密度の調査をはじめ、約8万語の調査結果をまとめたものが1999年にNTTデータベースシリーズ「日本語の語彙特性」第1巻として三省堂から刊行されました。 また、2002年には、第1巻に含まれなかった約3万語の追加調査を実施し、同シリーズの第9巻として刊行されました(いずれも絶版。以下「平成版」と呼びます)。
これらは広く利用されてきましたが、初期の調査から時間が経ち、単語親密度の経年変化の可能性があること、 これまでのデータベースに含まれない語が多く出てきていることなどから、この度、第1巻、第9巻に含まれるすべての語の再調査と、新しい語の追加調査を、 合わせて16万語以上について行い、「令和版単語親密度データベース」としてまとめました。

本データベースは、NTT印刷(株)よりご提供を開始しました (2021.10-)。

語彙数推定テストについて

単語親密度データベースを用いてできることの一つに「語彙数の推定」があります。 語彙数の推定では、提示した数十語を知っているかどうかチェックするだけでおおよその語彙数を推定します。
親密度の高い語は多くの人が知っていると考えられる語で、低い語は多くの人は知らない語と考えられます。 そこで、親密度の高い語から低い語まで、何段階かの親密度の語を示して知っているかどうかを確認し、 どの程度の親密度の語まで知っているかによって、語彙数を推定します。
少数の語をチェックするだけで語彙数を推定できるので、調査を受ける側の負担が少なく、簡単に語彙数を測ることができます。 NTTでは平成版をベースとした語彙数推定テストを公開し、多くの方にご利用いただいてきました。ただし、推定できる語彙数の上限は単語親密度データベースのサイズに依存するため、 平成版では7万7千語以上の語彙数は測れませんでした。
今回、令和版単語親密度をベースとして新たに語彙数推定テストを作成し、公開しました (2020.6.4-)。 基盤となる単語親密度データベースの拡充により、推定できる語彙数の上限が平成版より大きく上昇しています。



令和版語彙数推定テストでは、表記ゆれをまとめた結果、約13万5千語が推定語彙数の上限となっています。 また、推定方法を改良しました (2020.4.5-)。 2022年3月までの推定語彙数との対応が必要な方は個別にご相談ください。

語彙数推定テスト(公開版)のお試しについて

公開版はこちらのリンクからお試しいただけます。
(Internet Explorer (IE) では動きません。IE以外のブラウザでお試しください)

令和版語彙数推定テスト

なお、平成版と令和版では推定語彙数が大きく異なる場合があります。
おおむね令和版の方が語彙数が多く推定されます。 これは、基盤となる単語親密度データベースが令和版の方が大きいためです。

参考

関連発表

  • 単語親密度を使ったゲームを期間限定で公開しました (2021.4.24- 5.1.)
    テキストモンスター激闘版: テキストモンスター激闘版
  • コミュニケーション科学基礎研究所 オープンハウス2020 の研究講演で令和版単語親密度データベースと語彙数推定テストを紹介しました。(2020.6.4)
    講演動画はこちらから
オープンハウス2020
  • NTT持株会社ニュースリリースに掲載されました。(2020.6.3)
    報道発表資料

参照文献

  • 令和版単語親密度の調査に関してはこちらを参照してください。
  • 藤田早苗, 小林哲生 (2020)
    “単語親密度の再調査と過去のデータとの比較,” 言語処理学会第26回年次大会 (NLP-2020)

  • 公開版の令和版語彙数推定テストのログ分析はこちらを参照してください。
    2020年6月4日~2022年2月3日の間に令和版語彙数推定テストを3つとも実施していただいた55,857人分の結果の分析です。
  • 藤田早苗, 小林哲生 (2022)
    “令和版単語親密度に基づく大規模語彙数推定調査, ~Web公開版の利用ログ分析~”, “A Large Scale Web-Based Study of Japanese Vocabulary Size Estimation Test, ~ Based on Word Familiarity Database, Reiwa edition ~”, 2020年度人工知能学会全国大会(第36回)JSAI2022. (to appear)

  • 小中高校生の語彙数調査に関してはこちらを参照してください。
  • 藤田早苗, 小林哲生, 山田武士, 菅原真悟, 新井庭子, 新井紀子 (2020)
    “小・中・高校生の語彙数調査および単語親密度との関係分析,” 言語処理学会第26回年次大会 (NLP-2020)