情報洪水時代におけるアクティブマイニングの実現
科学研究補助金「特定領域研究(B)」 領域代表者 元田 浩(大阪大学・産業科学研究所・教授)
研究期間 平成13年度〜16年度
情報洪水時代の救世主:アクティブマイニング
収集・発掘・洗練の統合による知の上昇スパイラル実現
通信技術を含む計算機ハードウェアの急速な進歩により,大量情報が各種ネットワークを流通する時代に突入した.この状況は,情報洪水にたとえることができ,
1)膨大な情報空間のどこを見ればよいのかが分からない, 2)見る場所が同定できても,その中から目的にあった価値ある知識を簡単に取り出せない, 3)状況変化に即応できず,頻繁な知識の更新に対応できない,
などの大きな問題がクローズアップされている.実際,情報収集・データ解析・目的設定変更のサイクルが高速回転し,個人も組織も情報洪水の中で疲弊している.
本領域では,この状況を打破するために,新しいマイニングの枠組み「アクティブマイニング技術」を実現する.アクティブの名が示す通り,システム側からの情報源への積極的な働きかけ,目的に合致した質の高い知識の効率的な発掘と効果的な提示,ユーザ側からのシステム側への迅速なフィードバックの実現を標榜している.具体的には,以下の3つの機能を有機的に連携させたマイニングのための方法論を開発する.
- 機能1 アクティブ情報収集:
不特定・非定常・大規模・分散知識源の中から,ユーザの目的や興味に合致するデータやそれらの関連を効率良く探索し前処理するための情報収集技術を,メタ情報源の活用,ヒューリスティック探索知識の活用,機械学習法の活用など,最新のIT技術を駆使して開発する.
- 機能2 ユーザ指向アクティブマイニング:
多様な形式や多種の情報源に対応できる汎用性と状況の変化に対応できる柔軟性を持つマイニング手法を開発する.とくに,テキスト情報に代表される半構造化データ,巨大分子化学情報・ネットワーク情報に代表される構造化データからのマイニング,これら個別のデータに最適なマイニング手法の自動構築,状況変化検知に強力な例外性の発見技術に注力する.
- 機能3 アクティブユーザリアクション:
具体的な問題領域(医療,化学薬品)を対象にマイニングシステムを構築し,発掘した知識を,ユーザにとって有用なものとするための仕組(知識の表示法,評価手法,ユーザからの効果的なフィードバックの手法)を具体化する.
これらの3つの機能を統合して得られる相乗効果により,知の上昇スパイラルを実現し,情報洪水から人々を救出する有力な手段を提供する.
各研究項目の内容
1)総括班:研究計画(1) 「情報洪水時代におけるアクティブマイニングの実現」の推進と評価 代表者 元田 浩
概要:
研究打合せ会を開催し,領域全体の統括,計画研究班間の調整等を行うことにより,領域研究全体の円滑な遂行を目指す.また,成果発表会や国際ワークショップの開催,開発したソフトウェア,システム等の公開,論文発表等を通じて,研究成果公開を推進すると共に,アクティブマイニング研究の活性化を図る.なお,国際ワークショップでは海外の著名な研究者を招き,広い視野からの意見交換によって得たものを領域の研究計画策定に反映する.
2)研究項目A01: アクティブ情報収集 専用ホームページはこちら
WWWに代表されるネットワーク上に分散した日々内容が更新される,不特定・非定常・大規模・分散知識源の中から,ユーザの目的や興味に合致するデータやそれらの関連を効率良く探索するためのアクティブ情報収集技術を,メタ情報源の活用,ヒューリスティック探索知識の活用,機械学習法の活用など,最新のIT技術を積極的に活用して開発する.
研究計画(2) 「WWWにおけるメタ情報源の獲得」 代表者 山田誠二
概要:
WWWを情報源とした情報検索やデータマイニングは,今後,ますます重要になる.豊かなデータが与えられているとの前提に立つ従来研究とは違い,WWWでは,いかに有用なWebページを収集するかが問題となる.ページの収集に留まらず,Webページという情報源を収集するために有用な情報源である,検索エンジンFAQ,リンク集などのメタ情報源を発見し活用するシステムを開発する.
研究計画(3) 「分散動的情報源からのアクティブ情報収集」 代表者 北村泰彦概要:
WWW上の膨大な情報には頻繁に更新されるものが存在する.膨大ではあるが静的な情報源から問題解決に有益な知識を抽出するだけでなく,短時間で更新される情報源を常に監視し,その変化に応じて抽出された知識の更新をも行う機能も重要になる.情報収集の過程をヒューリスティック探索問題として定式化し,分散動的情報源から利用者にとって価値の高い情報を能動的に収集するアクティブ情報収集方式を開発する.
研究計画(4) 「多段階学習方式によるデータ収集と前処理の自動化」 代表者 沼尾正行概要:
必要なデータを選択して収集する「前処理」はデータマイニングの全工程の70%にもなると言われており,膨大な人手と時間を要す.現状ではデータに基き分類するだけで,対象間の関係を見出すには至っていない.データベース間の通信ネットワークに学習能力を持たせる技術を開発し,関連する情報を収集し,それらの関係を自動的に発見する手法を開発し,実データを用いて検証する.
3)研究項目A02:ユーザ指向アクティブデータマイニング
多様な形式や多種の情報源に対応できる汎用性とユーザを含めた状況の変化に対応できる柔軟性を持つ大規模データからのマイニング手法を開発する.とくに,テキスト情報に代表される半構造化データ,巨大分子化学情報・ネットワーク情報に代表される構造化データからのマイニング,これら個別のデータに最適なマイニング手法の自動構築,状況変化検知に強力な例外性の発見技術に注力する.
研究計画(5) 「構造データからのアクティブマイニング」 代表者 元田 浩
概要:
現存するマイニング技術は複雑な構造をしたデータに対しては無力である.巨大分子化学情報,巨大医療履歴情報,ネットワーク情報,大量のテキスト情報,法則式情報など,有用なデータの大半は構造化あるいは半構造化されている.構造データからのマイニングに目的や興味の指標を導入し,ユーザの価値観を反映した知識や概念の自動抽出を高効率で実施するアクティブマイニング手法を開発し,実データで実証する.
研究計画(6) 「メタ学習機構に基づくアクティブマイニング」 代表者 山口高平概要:
データマイニングの現場では,データ前処理やマイニングアルゴリズムの選定に多くのコストを費やしている.データ前処理に有用なメソッド,マイニング関連メソッド,マイニングされた知識を評価するメトリクス等を体系化したレポジトリー群を構築し,所与のデータセットに対して,有用なマイニングアプリケーションの仕様設計から実行するまでの全プロセスを首尾一貫して支援するメタ学習機構を開発する.
研究計画(7) 「例外性発見に基づくスパイラル的アクティブマイニング」 代表者 鈴木英之進概要:
例外性は,それ自体が発見対象として重要であることに加え,時系列的に見ると状況変化を検知する有効な手段である.データマイニングプロセス管理などに基づく各種例外性発見手法のスパイラル的統合により,データ,知識,および環境における例外性を連鎖的に発見するアクティブマイニング手法を構築し,実装システムを医学・商業データなどに適用して領域専門家による評価で有効性を実証する.
研究計画(8) 「利用者からの要求を考慮したテキストデータからの知識抽出」 代表者 松本裕治概要:
WWW上に存在する膨大なテキストデータから,利用者の要求に対してより柔軟かつアクティブな情報検索を行うための手法を統計学習手法に基づく言語処理技術(テキスト中の重要な用語の抽出と意味分類,言語解析による語彙概念構造の抽出,意味内容を考慮したテキストの自動分類,利用者の希望あるいは文脈を考慮した適応性のある情報検索手法)を統合して開発する.
4)研究項目A03:アクティブユーザリアクション
具体的な問題領域(医療,化学薬品)を対象にデータマイニングシステムを構築し,アクティブマイニングの結果得られた知識を,ユーザにとって有用なものとするための仕組を具体化する.発掘された知識の表示法,評価手法(有用性,新規性,意外性など),ユーザからの効果的なフィードバックの手法など,ユーザのアクティブなリアクションを容易にし,新たなデータ収集,設定目的変更などを容易にする一般的な枠組みを構築する.
研究計画(9) 「ラフ集合に基づくアクティブマイニングによる診療情報生成システムの開発」 代表者 津本周作
概要:
ラフ集合論は症例を負例,境界例,典型例と3種類に分類し,冗長な情報の縮約を行いつつ,あいまいな知識を含んだルールを生成できるメリットがあり,医療データベースからの知識発見を中心に広く応用されてきた.これに専門家の知識との相互作用の機能,生成されたパターンに関するレポーティングの機能を付加し,より医療現場に有用な診療情報生成システムを開発し,病院情報システムの機能を画期的に向上させる.
研究計画(10) 「アクティブマイニングによる化学物質群からのリスク分子発見」 代表者 岡田 孝概要:
薬品類などの化学物質群を対象とした未知毒性発見を能動的に支援するシステムを開発する. 1) 新規生理活性データの収集とリスクを示唆する分子の同定,2) 当該分子と構造的に類似する分子群の検索,3) 類似分子群における当該生理活性の危険度評価と専門家への提示の3機能を持たせることにより,薬品開発データから異種薬品の副作用の可能性を指摘するなど,化学物質群からの潜在的なリスク発見を支援できる.
研究計画(11) 「ヒューマン・システム・インタラクションに基づく知識評価と選択」 代表者 大澤幸生概要:
理解が容易で,目的に応じて的確に使用でき,ユーザの創造性を刺激しうる知識を提示するための仕組を構築する.そのために,知識の需給関係に注目し,知識の候補を供給するシステムとそれを解釈・選択する人間とのインタラクションによって,従来研究されてきた客観的な基準での知識評価の方式に加えて,利用者個人あるいはグループの主観までを含めて知識を評価・選択できる方式を確立する.