TOPSoftware > データベース内機械学習に対応している製品8選(上)

Software

データベース内機械学習に対応している製品8選(上)

2021/03/08

Matthew Finnegan Computerworld

 データセットが巨大な場合には、データが置かれている場所でモデルを直接構築できれば、データを大量に転送する必要がなくなり、極めて効率的だ。こうした機能を備えているデータベース製品やデータウエアハウス製品はいくつかある。ここからは、8種類の製品とその機能を、アルファベット順に取り上げる。

Credit: 4x-image / Getty Images

 筆者は以前、クラウドの機械学習プラットフォームの選び方に関する記事の中で、データとの距離の近さを重視せよ、という項目を最初に挙げた。データの伝送速度には上限がある。遅延を抑えるために、機械学習のコードと学習対象のデータは近い方がよい。ディープラーニングをはじめとする機械学習では、一連のデータに対する学習を繰り返すことが多いだけに、この点は重要だ。

 その時の記事でも指摘したように、データセットが巨大な場合には、データが置かれている場所でモデルを直接構築できれば、データを大量に転送する必要がなくなり、極めて効率的だ。こうした機能を備えているデータベース製品やデータウエアハウス製品はいくつかある。ここからは、8種類の製品とその機能を、アルファベット順に取り上げる。

Amazon Redshift

 Amazon Redshiftは、ペタバイト規模のマネージドデータウエアハウスサービス。各種のビジネスインテリジェンスツールを使って、データの分析をシンプルに実行でき、コストパフォーマンスに優れている。数百ギガバイトからペタバイト級までのデータセットに対応し、費用は1テラバイトあたり年間1000ドル足らずで済む。

 こうしたRedshiftのデータに対して、機械学習モデルの作成、トレーニング、デプロイをSQLで簡単に実行できるのが、Amazon Redshift MLだ。SQLのCREATE MODELコマンドを使って、トレーニングに使用するデータやターゲット列などを指定すると、Amazon SageMaker Autopilotにデータが渡され、暗号化されたAmazon S3バケットを通じて、同じゾーンでトレーニングが行われる。

 トレーニングが完了すると、最適なモデルが構築され、予測関数がSQL関数としてRedshiftクラスタに登録される。構築したモデルを使って推論を実行する際には、SELECT文の中で予測関数を呼び出す。

ポイント:Amazon Redshift MLでは、SQL文で指定したデータに基づいて、Amazon SageMaker AutopilotやAmazon S3バケットを使って予測モデルを自動で構築でき、最適な予測関数をRedshiftクラスタから使用できる。

↑ページ先頭へ