2019/07/05
長裕敏◎、山室健、内山寛之(分散処理基盤技術プロジェクト)
機械学習において,特徴選択は学習モデルの精度を向上させるために必要不可欠な処理であるが,特徴量数が増えると最適な組み合わせを選択するには膨大な処理時間を要する.先行研究では,DBMS から学習データを取得する際,外部キー制約を持つテーブル間のレコード数比が十分に大きい場合に,学習モデルの精度への影響を抑えながら特徴選択を行う前に特徴量数を削減する手法が提案されている.しかし,レコード数比が小さい実データも多く存在するため適用範囲が限定的という課題がある.そこで本研究では,上記の既存手法が適用できない条件下において,学習モデルの精度への影響を抑えながら外部キーが参照するテーブルの全特徴量を一次元の特徴量に変換し,結果の特徴量数を削減する手法を提案する.性能測定実験において,既存手法では条件を満たせず特徴量数を削減できなかった7 個のテーブルのうち,提案手法では3 個のテーブルに対して新たに特徴量数を削減可能なことを示し,学習モデルの精度への影響を抑えながら特徴選択を高速化可能なことを確認した.