機械翻訳

文脈と状況を考慮した機械翻訳を目指して

ニューラルネットワークを用いることにより機械翻訳の精度は大きく向上しました。日常会話や短文の翻訳は実用的な精度に達成しています。しかし、複数の文から構成される文書や一連の対話について、文脈や状況を理解して適切な訳文を出力するところまでは実現できていません。NTTは文脈と状況を考慮した高精度な機械翻訳を実現するために、日英文脈翻訳テストセットの作成、大規模日英対訳コーパスの構築、高精度な文対応・単語対応アルゴリズムの研究などに取り組んでいます。

日本語から英語への文脈翻訳テストセット

従来の機械翻訳の自動評価尺度には、文脈を考慮した翻訳に関して具体的に何が問題で、それが手法を工夫することによってどの程度解決されたのかがよく分からないという問題があります。そこでNTTは日本語から英語への翻訳を対象として、文脈の理解に必要となる代表的な言語現象である共参照と一貫性に関する翻訳のテストデータを作成し、これを公開しています。

Japanese-to-English Discourse Translation Test Set

大規模日英対訳コーパス JParaCrawl

Webデータを大規模に収集し、お互いに翻訳になっているWebページを検出してお互いに翻訳になっている文を抽出することにより、1000万文対を超える大規模な日本語と英語の対訳データを作成しました。医療や金融などの特定分野の小規模な対訳データと汎用の大規模な対訳データであるJParaCrawlを組み合わせることにより、特定分野向けの機械翻訳システムを手軽に作成することができます。またNTTはJParaCrwalを研究目的に限定して無償で公開しており、機械翻訳の代表的な国際会議であるWMT(Conference on Machine Translation)の日英・英日ニュース翻訳タスクでも使用されています。

JParaCrawl

言語横断スパン予測に基づく単語対応と文対応

お互いに翻訳になっている文書(テキスト)においてお互いに翻訳になっている文を同定することを文対応といいます。またお互いに翻訳になっている文においてお互いに翻訳になっている単語を同定することを単語対応をいいます。NTTは、これらの問題に対して質問応答技術を応用した言語横断スパン予測という新しい手法を考案し、高精度な単語対応や文対応を実現しました。この技術により、対訳テキストから対訳文を抽出したり、単語の属性(太字やハイパーリンクなど)を原文から訳文へ写像することが容易になります。またこの技術の検証用ソフトウェアを公開しています。