すべてのヒトゲノムを解析して変異を解釈する全ゲノム解析。遺伝子の塩基配列を高速に読み出せる次世代シーケンサーが登場し、ヒトゲノムすべてを600米ドルで解読できるようになった。2年ほどのうちには100米ドル時代に入っていくという。

 東京大学 医科学研究所ヒトゲノム解析センター長の宮野悟氏は、「~AIが命を救い、新薬を開発する!~ 人工知能が切り開く未来医療」と題したセッション(市民公開講座)に登壇。同センターで実施しているがんゲノム医療支援の最前線を語った。

講演する宮野氏(写真:森田 直希)

問題は数百から数百万の変異情報が出てくること

 次世代シーケンサーは、100文字ほどの断片になった約21億ピースの文字列断片をコンピュータに吐き出す。コンピュータは21億ピースのジグソーパズルを解き、がんのシステム異常であるゲノム変異を暴き出すという。東大医科研では、スーパーコンピュータによって、こうした解析作業は2時間程度でできるようになったという。

 ただし、問題は数百から数百万の変異情報が出てくること。「それが生物学的にどのような意味を持つのかという解釈と、実際に治療へどう使うのかの翻訳がボトルネックになる」と宮野氏は指摘する。解釈や治療への翻訳のためには、論文や治験情報、さまざまなゲノムデータベースなど、膨大な量の電子化知識を調べる必要があるからだ。

 例えば、米国NIH(国立衛生研究所)のPubMed(医学・生物系論文の要旨データベース)には、2018年までに2800万件の論文が登録されており、がんに関する論文は2016年だけでも20万報を超えているという。また、ゲノムデータベースも次々に構築されている。

 英国の公共のがんゲノム変異データベースであるCOSMIC(Catalogue Of Somatic Mutations In Cancer)には、600万を超えるがんの変異情報が2万6000報の論文にひも付けされていると宮野氏は説明する。「がんのゲノム医療にかかわっている研究者は、これを手作業で検索している。『拷問だ!』という声が上がっていた」(同氏)。

1~2週間を要していたゲノム変異の解釈が…

 東大医科研も、同じような状況だった。患者から検体を受理し、次世代シーケンサーでシーケンスしてスパコンによる解析ですべての変異を暴く。それを研究者と医師が「一粒、一粒、情報検索して検討した後、担当医に渡して治療方針を立てていた。これが時間的にも労力としても大きなボトルネックだった」(宮野氏)。

 これを解消するために東大医科研が導入したのが、IBMのAI「Watson for Genomics」である。「Watsonは機械学習と自然言語処理にサポートされて、論文などをよく読み、ある程度理解し、適当に推論する」(同氏)。導入時は2000万件超の文献要旨、1500万件超の特許データ、COSMICなどを学習してスタートした。

 これにより、人手で行っていたときは1~2週間を要していたゲノム変異の解釈が、2分程度で完了するようになったという。さらに、「全ゲノムシーケンスに基づき、3日と7時間30分で、患者の同意取得から診断として返すことが可能になった」(宮野氏)。

 AIは、Artificial Intelligenceの略。これに対して宮野氏は、「Watson for Genomicsを使ってみて感じたことは、AIとは『人知の増強』。つまり、Augmented IntelligenceのAIと表現するのが適切だろう」と述べる。一方、急性リンパ性白血病患者で極めて希少な融合遺伝子が見つかった症例でWatsonが何も提示できなかったケースを挙げ、「データがなければ、AIは完全無能。まだまだ発展途上である」(同氏)と結んだ。

(タイトル部のImage:森田 直希)