Data Warehouse
データウェアハウスとは、情報分析と意思決定を行うための大規模データベースです。
その特徴として
- 目的別(subject-oriented)
- 統合化(integrated)
- 時系列(time-variant)
- 更新をしない(non-volatile)
といったものがあげられます。
データマイニングを実施する際には、単にデータを集めるだけでは不十分であり、逆効果になることさえあります。
大量にデータを集めるということは、分析すべきデータが多量にある上に、そのデータの品質の悪さ、またデータの粒度やコード体系がバラバラであるといったことが発生しかねないからです。
大規模データを分析するためには、
- データのサンプリングを行う
- データのクレンジングを行い、データの品質を上げる
といったことが行われます。特に、データのクレンジングというのは、データマイニングを行う際の最重要ポイントであり、データハウス構築の際に、非常に重要になってくる部分です。