Garbage in garbage out
データマイニングを行う際、整理されたデータからのみ有益な知見が出てくるということは心に留めておかなければなりません。
例としては、ある保険会社のマイニングで「うお座」の人が交通事故に会いやすいという結果が得られました。
しかし、結論から言えば、それは単に、保険の契約者の分布がうお座の人に偏っていただけでした。
このように偏ったデータや、真の要因が含まれていないデータ(意図を持たずに溜まったデータ)からはそれなりの結果しか得られないということがわかります。
単純に素のデータを使うだけではなく、何らかの前処理を施すことも考慮に入れなければなりません。