前回はユーザエクスペリエンス(UX)の視点から、そもそもクラウドとは何か、医療分野での活用のメリットは何かについて解説した。今回は、実際にクラウドが、がんのゲノム医療実現にどのように関わっているか見ていこう。

 がんのゲノム医療とは、個々の患者のがん細胞の全ゲノムデータを読んで、ゲノム中の変化(バリアント)を知り、それに最も適した薬を選んで治療する医療のこと。そして、約30億個といわれる塩基配列を含む膨大なデータの解析を行うのが、シークエンサー(遺伝子を読む装置)である。

 このシークエンサーでシェアナンバーワンの企業が、米国のイルミナ社だ。このイルミナ社の解析スペースサービスBaseSpace Sequence Hub1)は、クラウドであるAmazon Web Service(AWS)上で行われている。ゲノムの場合、データ量が数GBから数十GBになることが多いため、クラウドにデータを置いて解析をすることが望ましく、クラウドを用いた事例が海外では多く報告されている。例えば、Microsoft Genomics 2)、 Google Cloudを利用したゲノム解析3)、 AWSを利用したがんゲノムのクラウドThe Cancer Genomics Cloud (CGC)4)など。シークエンサーから直接クラウドに接続しているケースも少なくない。

1)BaseSpace Sequence Hub(Illumina)
2)Microsoft Genomics(Microsoft Azure)
3)Cloud Life Sciences(Google Cloud)
4)Cancer Genomics Cloud (CGC)

 解析・保存すべきゲノムのデータ量が巨大になっていくことについては、2015年の記事であるが、『Nature』という有名な論文誌のNews欄にて 5)、2025年までには100万人から2億人のヒトゲノムが読まれて、2〜40エクサバイトのストレージが必要になるだろうと予測されている。ギガバイトの1000倍がテラバイト、その1000倍がペタバイト、その1000倍がエクサバイトである。YouTubeの動画のストレージが2025年に1〜2エクサバイト必要になると予想されていることと比べてみても、ゲノムのデータサイズは蓄積されると非常に大きいことが分かる。

5)NATURE NEWS 07 July 2015

データにアルゴリズムを送り込むという発想

 ゲノムのデータ量が大きいと、データを右から左に動かすだけでも一苦労である。普通、データ解析をする際には、データをダウンロードしてきて、そのダウンロードしたデータに対して、解析するアルゴリズムを適用し解析する。しかし、データを動かすのが大変、というのがゲノムの世界である。

 そこで、データを動かさずに解析するアルゴリズムをデータベース側に送り込む、というアイデアが提案されてきている。データのダウンロードが難しいので、データのある場所に解析のアルゴリズムを送り込み、その場所で計算し、解析結果をダウンロードするわけだ。

 事例を紹介しよう。ゲノムのデータを国際的に共有し、研究を加速させようという国際コンソーシアムGA4GH(Global Alliance for Genomics and Health)6)がある。GA4GHには筆者の所属するテンクーも加盟している。

6)ga4gh/wiki

 GA4GHでは研究の加速のために様々なスキームが提案されているのだが、その一つに「Cloud Work Stream」というのがある。これが、ゲノムのデータに対して「データにアルゴリズムを送る」という仕組みである(図1)。

図1●データをダウンロードするか、アルゴリズムをアップロードするか(出所:テンクー、図2とも)

 ゲノムのデータが大きいので、データ自体は動かさず、そのデータに対して解析するアルゴリズムを送り、解析した結果だけを得る、という仕組みである。クラウドのデータストレージの横に計算機を用意しておく。アルゴリズム自体の書き方を規定し、その解析アルゴリズムを審査した上で、適切な解析ができる場合には蓄積されたデータに適用し、データ解析をできるようにする。そして、解析結果をダウンロードできるようにするという取り組みである。いわば、逆転の発想である。

 これはデータの大きさの面のメリットだけでなく、生データ自体が外に流出しない、というメリットもある。この辺りの取り組みがどんどん加速していくだろう。

がんゲノム医療とクラウド

 国内でもゲノム医療の分野でクラウドを使った事例が出てきた。がんゲノム医療の中心になっているのが、国立がん研究センターで設置されているがんゲノム情報管理センター(C-CAT)である。そのC-CATのファイル交換フォルダという、関係病院や検査会社、C-CATの間でデータをやりとりするサービスがあり、その部分がAWSを利用していると、2019年の第39回医療情報学連合大会・第20回日本医療情報学会学術大会で公開されている。AWSのEC2(Elastic Compute Cloud)を用いて、通信にIPSec-VPNを利用したサービスとし、短期間でシステム構築を行ったとのことである7)

7)日経XTECH Special

 がんゲノム医療は現在2品目で保険診療がなされている。シスメックスが提供するがん遺伝子パネル検査では、検査の進捗確認および検査委託先からの検査報告書の電子ファイルの受け取りについては、AWSの東京リージョンを利用したシステムで、通信をSSL-VPN+証明書あるいはL2TP/IPsecのVPNとして提供している8)。一方、中外製薬が提供するがん遺伝子パネル検査では、検査依頼および検査結果報告をするサービスとしては、NTTデータの「L-AXeS」を利用する9)。L-AXeSはクラウドではなく、通信をIPsec+IKEのVPNとして、データセンターとして臨床検査会社向けにNTTデータが提供するサービスである。

8)Sysmex
9)NTTデータニュース

 筆者の所属するテンクーにおいても、がんゲノム医療の知識データベースChrovis Database for Oncology10)をAWS上で構築をしている。これは、様々な公共データベースなどに公開されている情報を統合し、横串検索を可能にした知識データベースである。さらに、同義語に加え、言い回しや省略語、表記揺れも吸収する「パラフレーズ検索」を実装し、一つの言葉でも同じ意味で記載されたエントリー、例えば薬や治験の情報などを検索することが可能にしているものである。参照するデータベースも大きく、日々、増えて行くために、スケーラビリティーの高いクラウドを利用して実装を行っている。

10)Chrovis Database

 このようにゲノムの分野において、クラウドの利用が始まってきている。個人的には、がんのゲノム医療は、クラウド利用の先進的な取り組みになっていくのでは、と感じている。特に、がん遺伝子パネル検査だけでなく、全ゲノム解析などを行おうとすると、クラウドが必須となり、その中で、3省3ガイドラインも含めて、セキュアかつ効率的にクラウドを設計して、解析が実施されていくだろう。

 またクラウド上で、データの保存(ストレージ部分)とデータ解析(計算部分)を分離して考え、様々な組み合わせで利用できる世界が来るのでは、と思う(図2)。クラウド自体にデータを置き、アルゴリズムをアップロードしたり、必要に応じてデータをダウンロードしたりと、自由自在になっていくだろう。この際に、どのように解析をしていくのか、何をやりたいのか、その結果をどう解釈するのかとなると、ユーザインタフェースが大事になってくる。さらには、データの解析だけでなく、データの可視化、それを伝えるコミュニケーションが重要になってくるだろう。

図2●将来のゲノム分野のクラウドのイメージ

(タイトル部のImage:artinspiring -stock.adobe.com)