研究計画(5) 「構造データからのアクティブマイニング」
1.研究の背景
巨大分子化学情報,ネットワーク情報,地理情報,巨大医療履歴情報,大量のテキスト情報,法則式情報など,有用なデータの大半は構造化あるいは半構造化されている.現存するマイニング技術は多量のデータを扱えるが,複雑な構造をしたデータに対しては無力である.このような(半)構造化データからの強力なマイニング手法の開発が待たれている.
2.本研究の目的大規模なグラフ構造データ(化学分子,ネットワーク),空間分布構造データ(地理情報),時系列構造データ(履歴),半構造データ(テキスト),制約構造データ(法則式)全ての構造データを対象とし,ユーザーの価値観を反映した重要なあるいは興味深い部分構造ならびにその特徴を知識として,ユーザーの許容時間内に発掘する技術を開発する.
具体的には,我々に実績のある一般グラフからの多頻度部分グラフ抽出技術,数値・記号混在データのクラスタリング技術,共通事象系列抽出技術,テキスト中の単語共起構造の抽出技術,尺度に基づく法則式抽出技術を総合し,ユーザーの目的や興味の指標ならびに時間制約に基づくアクティブマイニングシステムを開発する.
3.学術的な特色・独創的な点及び予想される結果と意義
- 構造データからのマイニング(部分構造の抽出)は計算論的には,構造の大きさの指数関数に比例するため,現存する最新の技術でも非常に小さなものしか扱えない.ボトムアップ探索,ヒューリスティック探索,数学的許容制約による効率的な枝刈り,統計的処理(共起相関,記述長最小化,エントロピー最小化など)の併用により,高速マイニングを実現する.これにより,ユーザの興味の変化に速やかに追従可能となると同時に,従来非常に困難であった要素間に複雑な関連のあるデータからの知識発掘(例えば,分子化合物中の変異原性物質の同定や売り上げデータからの重要顧客の新規開拓)が可能になる.
- 使用者の価値観や興味深さなどの指標を反映したマイニングの基準となる新しい評価指標を提案する.これにより,ユーザーにとって自明なあるいはあまりにも常識的な知識の再発見を防止し,真に有用な知識を発掘可能とする.
- データマイニングで一番困難な部分は必要な属性の発見である.全てのマイニング手法は所与の属性から出発する.部分構造の発掘は新しい属性や概念の発見につながり,マイニングの分野に新機軸を開拓する.
4.関連研究成果
・Akihiro Inokuchi, Takashi Washio, Takashi Okada and Hiroshi Motoda, Applying the Apriori-based Graph Mining Method to Mutagenesis Data Analysis, Journal of Computer Aided Chemistry, Vol.2, pp.87-92, 2001
・A02・A03班合同班会議(2002年1月30日・31日,千葉大学医学部附属病院)
発表資料・平成14年度第2回計画研究代表者会議(2002年11月1日・2日)
・実行ファイル
発表資料
BGBI(ZIP形式)
DTGBI(ZIP形式)