機械学習の基礎研究

多種多様なデータ(ビッグデータ)を対象として、データの背後に潜む重要な潜在情報を抽出し、新価値を創出するための革新的ビッグデータ解析技術を創出します。
具体的な研究内容のいくつかを下記に列挙します。

部分AUC最大化のための半教師あり学習

機械学習における二値分類問題において、ラベルなしデータを活用することによって、部分AUC(偽陽性率が特定の範囲での真陽性率)を高める分類器の学習方法に関する研究です。例えば異常検知において、誤検知率を低く抑えた状態で真の異常を見逃さなくすることが可能になります。

NTT CS研オープンハウス2020 研究展示 05

時空間データ解析のための時空間回帰テンソル分解法

時空間データ解析において、過去のデータが未観測な地点での未来予測技術を研究しています。過去に得られた膨大な時空間データから、データに隠された少数かつ重要な時空間パターンおよびパターン毎に現れる時間・空間相関を同時に学習することで過去データの無い地点の未来を予測します。

NTT CS研オープンハウス2019 研究展示 06

共通因子を効率的に学習する低ランク回帰技術:MOFM

今まで一つの目的変数の予測に限られていた「FactorizationMachines」を複数の目的変数の予測に拡張した研究です。提案法はデータを表す特徴から各目的変数に対して有用な組合せを見つけて高精度なモデルを作ります。

NTT CS研オープンハウス2018 研究展示 02

確率的潜在変数モデルに基づく知識発見

インターネットやセンサの普及とともに膨大なデータを容易に入手、蓄積できるようになってきており、データから有用な知識を自動的に発見することはビッグデータ解析の大きな課題となっています。本講演では、データがどのような仕組みで生成されたのかをモデル化することにより、ビッグデータから自動的に重要で特徴的な性質を発見し理解することを可能にする技術を説明します。そして、トピック抽出、オブジェクト対応付けなどの具体的なタスクにおけるモデルを紹介し、どのような場面でどのようなモデルを用いればよいかの指針を示します。

NTT CS研オープンハウス2017 研究講演

大域的最適性を保証する低ランク回帰学習技術 :CFM

複数の特徴量から目的値を予測する回帰問題を汎用的に、かつ高精度に解く研究です。提案法「Convex Factorization Machines(CFM)」は、データを表す特徴から予測に有用な組合せを見付けて高精度なモデルを作ります。提案法は、価格推定、推薦システム、遺伝子解析などの様々な応用例に適用できます。

NTT CS研オープンハウス2016 研究展示 01