知能推論研究分野(鷲尾研)/ 大阪大学産業科学研究所 第1研究部門(情報・量子科学系)

研究ポリシー

人間は興味のあるデータを眺め,様々な思考や簡単な統計計算を含む推論を行って,データから様々な知識を読み取ることができます.しかし,現代社会では,コンピュータネットワークやユビキタスセンシング技術(いつでもどこでも様々な情報を計測できる技術)の発達によって,膨大なデータを一度に入手する機会が増えています.また,それらデータの中身も単純な形式ではなく,時系列やグラフ,自然文など,複雑な内容になってきています.このような膨大で複雑なデータを,人間の能力だけですべて処理することには無理があり,どうしてもコンピュータによる解析支援や場合によっては解析の自動化の必要性が増しています.

そこで,この研究室では,コンピュータに膨大で複雑なデータからの知識の読み取りや発見をさせるための,データマイニング及び知識発見と呼ばれる推論方法や技術の研究開発をしています.これには様々な探索,検索,統計,確率計算,データベース,それらを融合した理論,手法,技術,システムツールが含まれます.研究を行うからには,自己満足ではだめでその成果が問われます.大阪大学附置研究所の研究室として最も重視することは,学術的,基礎的に中長期に亘って世界の研究動向や人々の暮らしに大きく波及する成果の創出です.そのため,グローバルに見てデータマイニングと知識発見研究のパイオニア,トップランナーとなる研究テーマ設定,研究成果を生み出すことを,常に目指しています.そして,世界第1級の国際会議や国際学術雑誌に成果論文を発表すると同時に,国際会議や国際ワークショップの運営など,この分野でグローバルな研究者のネットワークやコミュニティーを構成して研究推進する努力をしています.

また,この研究室では,基礎研究成果を含め幅広いデータマイニングや知識発見技術を科学,情報ネットワーク,品質・リスク管理,医療,セキュリティー,マーケティング,金融など,様々な分野に役立てる応用研究もしています.多くの他分野の研究者,企業との共同研究を行い,技術を応用,実用化して社会に還元する努力をしていますが,これらは単なる実用成果創出のためだけでなく,現実問題への応用経験を通じてより実践的で基礎的な重要課題を見つけ,基礎研究にも反映させていくという,研究の上昇スパイラルを実現するためにも重要であると考えています.

教育ポリシー

大学附置研究所の研究室として研究を重視した活動を行っていますが,1年間に配属される学生数が少ないこともあり,各学生に教授,准教授,助教がOJT (On the Job Training)による個別指導を行い,普通の学生を優秀な能力を持つ学生に高める教育体制を取っています.学生達は,

  • 学術的,技術的に優れた能力,論理的思考能力を身に付けるのはもちろんですが,
    • 外国語論文を読んでその内容を定期的に発表する雑誌会,
    • 自分の研究テーマの進捗を定期的に発表するコロキウム,
    • 更には国内学会発表のみならず,国際学会発表,
    • 内外の学術雑誌論文の執筆,掲載

を通じて,

  • 語学力と共に,
  • 自分に必要な情報を収集する能力,
  • 収集した情報を分析する能力,
  • 自分の考えを的確,明快にまとめて他者に伝えるコミュニケーション能力,
  • 高度で複雑な概念を聴衆の立場にたって分かりやすく説明するプレゼンテーション能力,
  • 同じく読者の立場にたって分かりやすく記述する文章や報告の作成能力

を身につけます.また,

  • 専門馬鹿にならない幅広い社会的視野を持ってもらうためのガイダンス

を随時実施しています.そして,何よりも大切なこととして,学生と研究指導スタッフが気軽に密なコミュニケーションを取れる体制,雰囲気作りを重視しています.このような教育,経験を通じて,学生達は

  • 優秀な研究者,技術者としてだけでなく,
  • プロジェクトマネージメントについて初歩的能力を身に付けた学部卒業生,
  • 社会の即戦力となる修士修了生,
  • 世界第一線の研究能力,実力を持つ博士号取得者

に育って行きます.実際にこの研究室では,博士号取得者のみならず,修士修了学生の多くが国際会議発表,学術論文執筆,掲載の経験を積んで巣立っていきます.また,高度なデータ解析技術を知る者として,理工系の研究,技術開発の職場のみならず,サービスや金融分野を含めデータを駆使するビジネスの現場にも就職しています.

研究テーマ

1.超高次元データからの情報推定・知識発見

コンピュータネットワークとユビキタスセンシング(いつでもどこでも様々な情報を計測できる技術),科学的測定技術の発達によって,例えば巨大なショッピングモール内の様々な条件でどんな品物が売れたかといった,たくさんの事象・状態に関する膨大な変数の測定データ(超高次元データ)が収集できるようになって来ています.また,グローバルな地球環境変化や遺伝子間相互作用ネットワークなど,巨大な構造状態の測定結果も超高次元構造化データとして収集されています.私たちは,このような高次元で複雑な対象データを解析して,そのメカニズムに関する情報の推定や知識を発見する技術の研究に取り組んでいます.例えば,数百〜数千個の変数に関する測定値の時系列データから,観測対象システムの状態変化やその変化を支配するダイナミックなメカニズムを推定するフィルタリング手法を研究しています。これによって,例えば巨大なショッピングモール内の人々の流れの仕組みやグローバルな地球環境変化のメカニズムに関する推定や関連知識を得ることができます。

2.因果構造探索のためのデータ解析法の開発

データに潜む因果構造を推定するための統計的方法を開発しています。推定された因果構造は図でグラフィカルに表現されるので、統計科学の専門家でない応用研究の専門家にも結果を理解しやすくなっています。有望な応用分野は、バイオインフォマティクス、ニューロインフォマティクス、経済学、心理学、社会学などいろいろあります。例えば、遺伝子発現量や脳波などのデータを使って、遺伝子間や脳領域間の因果構造を探索できるような計算アルゴリズムを研究しています。研究の道具は、数学とコンピュータです。数学を使って、アルゴリズムの正しさを証明し、またソフトウェアを公開することで、誰でも利用できるようにしています。私たちのアプローチでは、データの非ガウス性を利用することが鍵です。それによって、従来法よりも格段に多くの情報をデータから引き出すことができます。

3.組合せ論的計算による高次元データからの知識発見

データ取得技術の著しい向上を背景に,遺伝子データ解析や自然言語処理,画像処理など,様々な工学的問題において,数千〜数十万次元といった極めて高次元なデータを扱う場面が多くなっています.その処理においてはしばしば,何らかの基準で全次元からその部分集合を選択する,という組合せ的計算が必要となります.例えば,非常に多くの遺伝子から構成される遺伝子配列データにおいて,ある病気や症状に最も関連がある少数の遺伝子の組を探したい,といった場合などです.しかしこのような計算は,データが高次元である事に起因する組合せ爆発により,厳密な計算は現実的には不可能となってしまいます.そこで私たちは,データが持っている離散的な構造,特に劣モジュラ性(離散凸性)を用いる事により,この計算を可能とするような効率的なアルゴリズムの開発に取り組んでいます.そして,開発したアルゴリズムを現実のデータに適用し,重要な応用的知見の獲得を目指しています.

4. データからの統計的有意性を持つパターン発見

ビッグデータからの知識の抽出と,その知識の重要性を統計的に保証する仕組みを融合することで,知識の洗練と深化を実現する手法を開発しています.具体的には,パターンと呼ばれる大規模データに潜む組合せ的構造の効率的な発見を目指して,新しいアルゴリズムの研究に取り組んでいます.さらに,仮説検定をはじめとした統計的手法の研究にも取り組み,本来は重要ではないのに間違って発見されてしまうパターン(偽陽性パターンと呼ばれます)の割合を自動的に制御する技術を開発しています.応用先は幅広く,データマイニングで有名な,購買データからよく売れる商品の組合せを見つける問題にはじまり,Web上の巨大ソーシャルネットワークに現れる特徴的なコミュニティの検出や,創薬のための化合物探索において目的の活性をもつ化合物に共通する部分構造の発見などに適用することができます.特に,A/Bテストを用いたデータ解析と相性が良く,信頼性の高い知識をビッグデータから取り出すことができるようになります.

Top of Page

Copyright (C) 2009 Department of Reasoning for Intelligence All Rights Reserved.