真の要因を探る必要性
データマイニングを行うときに気をつけなければならないことが、「データマイニングによって得られた知見が真の要因なのか」を考えることです。
例えば、「喫煙の量が増えるほど、肺がんの発生率が高い」という結果が得られたときに、短絡的に「たばこが肺がんの原因である」という結論に陥りがちです。
しかし、考えてみると、年齢を重ねるほど喫煙の累積量も増えていきます。
そのことから、加齢が肺がんの原因ではないかと考えることもできます。
このように、データマイニングによって、有力な要因を特定し、実験などによって、原因の確認を取ることも重要になってきます。
データの偏り
データマイニングプロジェクトが進んでいくに従って、データの偏りに気を配る必要が出てきます。
つまり、データマイニングプロジェクトで手を打った対策が、その後のビジネスに影響を与えていないかということを考える必要があるということです。
例えば、銀行の与信審査にデータマイニングを適用した場合、適切なモデルが作成されていれば貸し倒れ件数の減少が期待できます。
しかし、それはモデル作成時点のデータを元にして作られたモデルであり、貸し倒れを恐れるあまり、貸し出し拒否の件数が増えることにより、サンプルデータに歪みを生じる可能性が出てきます。
モデル作成時には、偏りの無いデータが得られるように、適切なプロジェクト計画が必要になります。