TOPNetwork > ビッグデータの基礎知識(下)

Network

ビッグデータの基礎知識(下)

2018/02/23

Bob Violino InfoWorld

 ビッグデータとは要するに何なのだろうか。単にデータと言った時と、何が違うのだろうか。

前回から続く)

Apache Spark

 Apache Sparkは、オープンソースのクラスタコンピューティングフレームワーク。Hadoopエコシステムの一部を成し、Hadoop内のビッグデータ処理エンジンとして利用できる。ビッグデータの分散処理フレームワークとして重要な存在の1つとなっており、さまざまな展開が可能だ。Java、Scala、Python(特にディストリビューションAnaconda)、Rの各プログラミング言語から利用するための機能を標準で備えている(Rは特にビッグデータに適している)。また、SQL、ストリームデータ、機械学習、グラフ処理に対応している。

データレイク

 データレイクは、膨大な生データをそのままのフォーマットで大量に蓄積しておいて、業務ユーザーが必要とした時点でそのデータを適宜利用できるようにするという形のストレージリポジトリだ。データレイクの拡大を後押ししているのは、デジタルトランスフォーメーションの取り組みと、IoTの発展だ。ユーザーのニーズに応じて膨大なデータを利用しやすくなるように構成されている。

↑ページ先頭へ