研究紹介

 データマイニング&分散処理研究室は、データサイエンスの観点から、データマイニングや分散処理 、センサー/モバイルネットワークの技術と応用に関する研究を行っています。
 日常生活で使用する身の回り品から、乗り物やビル、医療や工場現場の機器まで、センサーや通信機能を持った現代社会を支える様々なモノはインターネットと繋がり、日々テラバイト単位の膨大なデータが集められています。データマイニングによるデータの分析と活用がますます重要になっています。データマイニングとは、データをコンピュータによって解析し、これまで知られていなかった規則性や傾向など、何らかの有用な知見を発見するプロセスです。
 データマイニングには、分散処理技術が欠かせないです。第一に、データマイニングは大規模な計算処理が要求されます。日々複雑化し増え続けるデータを効率的に処理するため、1台の高性能コンピュータより、ネットワークで接続された複数のコンピュータで処理するほうは投資のコストが低く、システムの拡張性や耐故障性が高いです。第二に、データが一般的に複数のサイトに跨って蓄積されています。この種のデータに対しては集中型処理は効率が低く、プライバシーやセキュリティ問題もあります。また、法律上の制限や情報漏洩の懸念からデータを一か所に集められない場合もあります。第三に、アプリケーションによって、データの生成された現場でデータマイニングを即時的に行わなければならない場合もありますし、センサーネットワークのようなシステムではネットワーク帯域幅の制限で大量の生データよりデータマイニングの結果を転送しなければならない場合もあります。分散型データマイニングは、分散環境におけるデータマイニング技術と活用を探究します。
 IoTにおいて、データがネットワークを基盤としたIoTのなかで流され、収集されます。なので、データマイニングがネットワークからの影響を受けるはずです。例えば、データ処理の1つの重要な要求は、プライバシーの保護です。コンビニエンスストアが収集した購買データには利用者を特定できる情報があり、病院の電子カルテには病名や治療プロセスに関する情報があります。また、モバイル端末から収集したデータには位置情報があり、その利用者の訪問した場所やそこで止まった時間を特定できます。データマイニングは、情報漏洩の危険からユーザのプライバシーを保護する必要があります。ネットワークルーティングプロトコルの再設計やトポロジーコントロールなどは、プライバシーを保護したデータマイニングにおいて重要な役割を果たしています。分散型データマイニングは、センサーネットワークやモバイルネットワークメカニズムからデータサイエンティストの探究を進みています。