文や段落の修飾関係を賢く判断
~ニューラルネットによる階層的トップダウン修辞構造解析~
どんな研究
文書の背後にある談話構造を木として表現する研究を紹介します。文書を段落系列と文系列で構成された入れ子の階層構造としてとらえ、それぞれの階層での修辞構造をニューラルネットを用いて推定します。そして、それらをつなぎ合わせることで文書全体をあらわす修辞構造木を構築します。
どこが凄い
段落、文系列を独立かつ再帰的に二分割することで木を構築するため、並列化が容易であり長い文書であっても高速に動作することが期待できます。ニューラルネットを用いてテキストデータを自動的に特徴ベクトルに変換するため、人手で複雑な特徴を考える必要がありません。
めざす未来
自然言語処理技術は「文」だけではなく「文章」も処理対象として扱う必要があります。例えば、文書を翻訳する際には文脈に応じて適切な訳語を選ぶ、要約する場合には原文書の話題の一貫性を損なわぬようにすることが重要です。本研究はこうした自然言語処理の基盤として必要不可欠です。