データウェアハウス

Data Warehouse

データウェアハウスとは、情報分析と意思決定を行うための大規模データベースです。 その特徴として

  1. 目的別(subject-oriented)
  2. 統合化(integrated)
  3. 時系列(time-variant)
  4. 更新をしない(non-volatile)

といったものがあげられます。

データマイニングを実施する際には、単にデータを集めるだけでは不十分であり、逆効果になることさえあります。 大量にデータを集めるということは、分析すべきデータが多量にある上に、そのデータの品質の悪さ、またデータの粒度やコード体系がバラバラであるといったことが発生しかねないからです。

大規模データを分析するためには、

  • データのサンプリングを行う
  • データのクレンジングを行い、データの品質を上げる

といったことが行われます。特に、データのクレンジングというのは、データマイニングを行う際の最重要ポイントであり、データハウス構築の際に、非常に重要になってくる部分です。

関連リンク