データマイニングのプロセスは
- データ収集
- データの選択
- データクレンジング
- データマイニング
- 解釈・意思決定
といったプロセスを取ります。
最初のデータ収集では、様々なデータを収集し、データウェアハウス(DWH)にデータの蓄積を行います。集められるデータとしては、業務の中で集められるPOSデータや機械の計測データ、あるいはアンケートや気候、気温などのデータがあります。
次に、データの選択を行いますが、データマイニングには、必ずしも全てのデータを使うとは限りません。集まったデータの中からデータマイニングに使うべきデータを選択します。
データクレンジングというのは、データの補正や正規化、コードの変換などにより、分析すべきデータを整えることです。データマイニングの精度を上げるためには必須の作業になります。
それらの作業が終わり、データマイニングの対象となるデータの整備が終わったら、いよいよデータマイニングが行われます。ここで、様々な分析が行われ、データの解釈が可能な形にデータの視覚化やパターンの抽出が行われます。
最後にデータマイニングによって出てきた結果の解釈を行い、その結果をどのように活かしていくかという意思決定が行われます。
データマイニングは単なる数値遊びではありません。出てきた結果を実際に役に立ててこそ、その意味があると言えます。