TOPマネジメント > データマイニングとは何か(中)

マネジメント

データマイニングとは何か(中)

2017/09/27

Bob Violino InfoWorld

データマイニングの主な構成要素

 データマイニングのプロセスは複数の要素で構成されていて、それぞれ異なる必要性に対応している。

  • 前処理:データマイニングのアルゴリズムを適用する前に、対象のデータセットを確立する必要がある。一般的なソースには、データマートやデータウエアハウスなどがある。データセットを分析できるように前処理を実行しなくてはならない。

  • データのクレンジングと準備:対象のデータセットには、整理などの下準備が必要となる。具体的には、「ノイズ」の除去、不足値への対処、エラー除去や詳細調査に向けた外れ値の除外(異常検知)、セグメンテーションルールの作成など、データ準備に関連する処理を実行する。

  • アソシエーションルール学習:マーケットバスケット分析としても知られ、データセットに含まれる変数同士の関係を探る。例えば、店で一緒に買われることが多い商品はどれかを特定する。

  • クラスタリング:既知のデータ構造に頼らずに、データセットの中で何らかの面で似ているデータ同士のグループや構成を探る。

  • 分類:既知の構造を一般化して、新しいデータ要素に適用する。例えば、メールアプリケーションで、正規のメールかスパムかを分類する時などが該当する。

  • 回帰:特定のデータセットが与えられた時に、例えば売上、住宅の査定価格、温度、価格など、数値の範囲を予測する時に使う。

  • 要約:視覚化やレポート生成など、データセットを簡潔に表現する。

 データマイニングのソフトウエアを手がけているベンダーは数多く存在し、プロプライエタリーなソフトウエアと、オープンソースベースの両方がある。

 プロプライエタリーのデータマイニングソフトウエアを手がける主要ベンダーには、カナダAngoss Software、米Clarabridge、米IBM、米Microsoft、カナダOpenText、米Oracle、米RapidMiner、米SAS Institute、独SAPなどがある。

 オープンソースのデータマイニングソフトウエアやツールは、Carrot2、KNIME、Massive Online Analysis、ML-Flex、Orange、UIMA、Wekaなどが挙げられる。

翻訳:内山卓則=ニューズフロント

↑ページ先頭へ