TOPマネジメント > データ分析プラットフォームについての考察(中)

マネジメント

データ分析プラットフォームについての考察(中)

2020/08/05

Isaac Sacolick InfoWorld

 IT関連の仕事には、ソフトウエア開発、DevOps、システム、クラウド、テスト自動化、サイト信頼性エンジニアリング、スクラムチームのリード、情報セキュリティなど、さまざまなジャンルや職務があるが、データ、分析、機械学習を扱う機会や要件は、今後あらゆるジャンルで増えていく。

前回から続く)

データベースとデータプラットフォーム

Credit: Thinkstock

 第1段階として不可欠なデータのロードと処理をへて、最適なデータベースを選ぶ段階になると、話がもう少し複雑になる。現在の選択肢としては、エンタープライズデータウエアハウス、データレイク、ビッグデータ処理のプラットフォームのほか、NoSQL、グラフ型、キーバリュー型、ドキュメント型、カラム型といった特化型データベースがある。大規模データウエアハウスや分析に対応したプラットフォームとしては、Snowflake、Redshift、BigQuery、Vertica、Greenplumがある。また、SparkやHadoopなどのビッグデータプラットフォームもある。

 大企業では、複数のデータリポジトリを使用している場合が多く、Cloudera Data PlatformやMapR Data Platformなどのクラウドデータプラットフォームや、InfoWorks DataFoundyなどのデータオーケストレーションプラットフォームを利用して、一連のリポジトリを分析に使えるようにしている。

 3大パブリッククラウドであるAmazon Web Services(AWS)、Google Cloud Platform、Microsoft Azureには、データ管理のための多種多様なプラットフォームやサービスがある。例えば、Azure Synapse AnalyticsはSQLデータウエアハウスで、Azure Cosmos DBは、Cassandra(カラムデータ)、MongoDB(キーバリューデータとドキュメントデータ)、Gremlin(グラフデータ)など、多数のNoSQLデータストアへのインタフェースを提供する。

 データレイクは、非構造化データを一元化してすばやい分析に対応するための集積所として広く利用されており、Azure Data Lake、Amazon S3、Google Cloud Storageといったサービスが使われている。ビッグデータの処理に関しても、AWS、Google Cloud Platform、Microsoft Azureのそれぞれに、SparkやHadoopに対応したサービスがある。

↑ページ先頭へ