メディアの科学

飾り文字でも読み取れる

～深層学習と系列デコーディングによる文字列認識～

概要

スマートフォンで撮影した街中の風景など、実環境の情景中に存在する文字を読み取ることは、その有用性が期待されながら、今なお困難な課題です。同じ文字でも書体や撮影条件などにより画像には大きな違いが生まれ、認識が困難になります。これに対し我々は、画像認識で有効性が示されている深層学習(CNN)と、音声認識で有効性が示されている重み付き有限状態トランスデューサ(WFST)を組み合わせた手法を提案し、高い認識精度を実現しました。文字を読み取ることで、コンピュータが効率的に情報を取得することや、ユーザにとって必要な情報を的確に提示することが可能になります。

当日の様子

ポスター

ポスターの画像をクリックすると、PDFファイルが開きます。

展示担当者

劉新豪
メディア情報研究部

武小萌
メディア情報研究部

松本信義
メディア情報研究部

川西隆仁
メディア情報研究部

柏野邦夫
メディア情報研究部