統計的機械学習

世の中にあふれる多種多様なデータを解析して有益な情報を提示するデータマイニング技術や予測・推論技術は、ビジネス上での判断のみならず、日々の様々な生活場面でも役立つものとなります。ノイズを含み、かつ不完全にしか観測できないデータを扱うためには、統計的機械学習のアプローチが有効です。
我々は特に、分散蓄積された統計的に偏りがあるデータから非同期に学習・推論する技術、モデリングが容易でない現象に対して学習・最適解探索を行う技術、因果関係を考量した学習技術、複雑な構造をもつモデルに対して現実的な計算時間で学習・推論する技術、ユーザの興味や質問に関連する部分データを効率良く探索する技術、などを研究テーマとして取り組んでいます。

研究の背景

深層学習技術の進展により、音声認識や画像認識など、良質で網羅的なデータを大規模にに収集できるタスクでは高精度な機械学習モデルを構築できるようになりましたが、医療データや異常データ、各種ビジネスで収集するデータなど、網羅的に収集したり、集めて網羅的に解析することが困難なデータも多く存在します。このように網羅的な大規模データを利用できない多様な状況で、統計的に偏りがある不完全な観測データから高精度かつ実用的な計算時間で学習・推論やデータ解析を実現するアルゴリズムを研究開発しています。

非同期分散環境下での学習・推論

医療データや工場・オフィスデータ、各種センサデータなど、分散管理され、統計的に偏りがあるデータから効率的にモデル学習と推論を行う技術の開発に取り組んでいます。個々の端末やサーバに蓄積されたデータを外に出すことなくグローバルなモデル学習を実現する分散型学習では、通信量の削減やプライバシー保護が期待できます。また、非同期に分散型学習を行う技術により、通信や処理の集中を避け、学習に要する時間の削減が期待できます。

モデリングが容易でない対象の学習・最適解探索

人や車などの集団の流れに対して混雑・渋滞を回避するための誘導策を探索する問題や、性質の良い物質を生成するのに最適な条件を探索する問題など、得られる結果と制御変数の関係が不明でモデル化が困難な問題に対して、効率的に優良な解を探索するブラックボックス最適化技術の研究に取り組んでいます。ブラックボックス最適化の一種であるベイズ的最適化を応用した人流誘導探索技術の開発や最適化技術の高度化を進めています。

マルチエージェントシミュレーションを用いた人流誘導策のベイズ的最適化

機械学習による因果関係の推定と因果関係を考慮した学習

降水量と河川の流量などのように原因と結果の関係(因果関係)にある変数の組合せを機械学習を用いて自動的に推定する技術の開発を行っています。因果関係を正しく推定するにはデータ分析の専門家によるモデル設計が必要ですが、機械学習を用いることで専門知識なしに因果関係を高い精度で推定できる技術の構築を目指しています。
また、不当な差別を引き起こさない公平な識別器を得るため、変数間の因果関係を考慮して学習する手法の研究を進めています。

教師あり学習に基づく時系列データの因果関係の推定

複雑な構造をもつモデルの学習・推論

統計的機械学習や統計的仮説検定ではモデルを用いた確率計算が必要ですが、変数間にグラフ関係などの複雑な構造をもつモデルでは正確に確率計算をするのに多大な時間を要します。グラフ構造をもつ現象のモデルに対して、組合せ最適化で用いられる決定グラフ等を応用して現実的な時間で正確に確率計算を行うための技術開発に取り組んでいます。

高速類似探索

文書・画像・音声音響信号・記号列等の多様なデータを対象とし、種々の類似尺度を利用できる、近傍グラフを索引構造とする高速類似探索法の研究をしています。
近傍グラフの利用は、探索高速化を達成し、多様なデータ・類似尺度を利用可能とします。
さらに探索結果を容易に可視化することも可能となります。