TOPマネジメント > データレイクとは?データウエアハウスとの違いやデメリットは(...

マネジメント

データレイクとは?データウエアハウスとの違いやデメリットは(上)

2018/10/15

Andy Patrizio InfoWorld

データレイクとデータウエアハウスの違い

 大量のデータを保管庫に蓄積しておくという発想は新しいものではない。データウエアハウスの考え方は数十年前からある。データウエアハウスとデータレイクが似ているように感じるのも無理はない。しかし、実際は両者には根本的な違いがあり、データの種類から処理方法まで、さまざまな点が異なる。

データレイクは特別なハードウエアが不要

 重要な違いの1つとして、データレイクは特別なハードウエアやソフトウエアが必要ない。

データレイクの方が柔軟

 最初に述べたとおり、データレイクは膨大な量の非構造化データを元の形式のまま蓄積する。一方、データウエアハウスは、フォルダ、行、列と、構造化の度合いがはるかに高い。したがって、格納するデータに関してはデータレイクの方がはるかに柔軟だ。

 この点が重要なのは、80%の法則があるからだ。1998年に米Merrill Lynchは、企業のデータの80%は非構造化データであると推計した。これは今でも基本的に変わっていない。したがって、どこまでをデータ分析の対象にできるかという点で、データウエアハウスにはかなりの制約がある。

 Hiskey氏は、データウエアハウスよりもデータレイクの方が役に立つと主張する。現時点ではどの要素も一切利用していないデータであっても、ひとまず集めて保管し、数週間後、数カ月後、数年後になってから、古いデータにさかのぼって分析できるからだ。データレイクがなければ、そうしたデータは破棄していたかもしれない。

翻訳:内山卓則=ニューズフロント

↑ページ先頭へ