スマートフォンで撮影した街中の風景など、実環境の情景中に存在する文字を読み取ることは、その有用性が期待されながら、今なお困難な課題です。同じ文字でも書体や撮影条件などにより画像には大きな違いが生まれ、認識が困難になります。これに対し我々は、画像認識で有効性が示されている深層学習(CNN)と、音声認識で有効性が示されている重み付き有限状態トランスデューサ(WFST)を組み合わせた手法を提案し、高い認識精度を実現しました。文字を読み取ることで、コンピュータが効率的に情報を取得することや、ユーザにとって必要な情報を的確に提示することが可能になります。
ポスターの画像をクリックすると、PDFファイルが開きます。