TOPマネジメント > データレイクとは?データウエアハウスとの違いやデメリットは(...

マネジメント

データレイクとは?データウエアハウスとの違いやデメリットは(中)

2018/10/17

Andy Patrizio InfoWorld

 ビッグデータに関する話題を追っている人は、「データレイク」という言葉を聞いたことがあるはずだ。レイク(湖)という響きから連想されるイメージのとおり、いわばデータをため込んでおく大きな貯水池のようなものである。

前回から続く)

 データレイクとデータウエアハウスが柔軟性に関して異なるのは、スキーマ・オン・リード(Schema on Read)かスキーマ・オン・ライト(Schema on Write)かという違いだ。スキーマは、データベース全体の論理的記述で、すべてのレコード型のレコードの名前と記述が含まれる。

 データウエアハウスはスキーマ・オン・ライトだ。データに適用する構造が正確に分かっていないと保存できない。したがって、データを取り込む前か、少なくとも保存の前に、かなりの準備が必要となる。一方、データレイクはスキーマ・オン・リードだ。読み取って処理を進める段階でフォーマットすればよい。スキーマ・オン・リードなら、ログファイルやWebファイル、あるいは構造が特にない情報など、すべてを1つの箱に放り込んでおけばよい。それを理解する工程は後回しにできる。

↑ページ先頭へ