データにアルゴリズムを送り込むという発想

 ゲノムのデータ量が大きいと、データを右から左に動かすだけでも一苦労である。普通、データ解析をする際には、データをダウンロードしてきて、そのダウンロードしたデータに対して、解析するアルゴリズムを適用し解析する。しかし、データを動かすのが大変、というのがゲノムの世界である。

 そこで、データを動かさずに解析するアルゴリズムをデータベース側に送り込む、というアイデアが提案されてきている。データのダウンロードが難しいので、データのある場所に解析のアルゴリズムを送り込み、その場所で計算し、解析結果をダウンロードするわけだ。

 事例を紹介しよう。ゲノムのデータを国際的に共有し、研究を加速させようという国際コンソーシアムGA4GH(Global Alliance for Genomics and Health)6)がある。GA4GHには筆者の所属するテンクーも加盟している。

6)ga4gh/wiki

 GA4GHでは研究の加速のために様々なスキームが提案されているのだが、その一つに「Cloud Work Stream」というのがある。これが、ゲノムのデータに対して「データにアルゴリズムを送る」という仕組みである(図1)。

図1●データをダウンロードするか、アルゴリズムをアップロードするか(出所:テンクー、図2とも)

 ゲノムのデータが大きいので、データ自体は動かさず、そのデータに対して解析するアルゴリズムを送り、解析した結果だけを得る、という仕組みである。クラウドのデータストレージの横に計算機を用意しておく。アルゴリズム自体の書き方を規定し、その解析アルゴリズムを審査した上で、適切な解析ができる場合には蓄積されたデータに適用し、データ解析をできるようにする。そして、解析結果をダウンロードできるようにするという取り組みである。いわば、逆転の発想である。

 これはデータの大きさの面のメリットだけでなく、生データ自体が外に流出しない、というメリットもある。この辺りの取り組みがどんどん加速していくだろう。