情報銀行

星新一さんといえば、一般の短編小説よりもさらに短い「ショートショート」と呼ばれる分野で数多くの作品を残された、言わずと知れたSF小説界の巨匠である。先日、とある研修会にて勧められて読んだ『声の網』は、氏にしては珍しい長編の作品であったが、面白くて一気に読み切ってしまった。未だ読まれていない皆さんにも、私と同じような体験をしていただきたいのでネタバレするような話はなるべく避けたいのだが、現代を“予言”でもしているかのような、情報のネットワーク(網=Web)をテーマとした作品だ。

ところで、私は学生時代に星新一作品を数多く読んでいるので、本作品についても以前に読んだことがあったかもしれないと思う。ただ、当時の私では長めのSF娯楽作品程度の認識がせいぜいで、本作品の持つ本質や哲学的考察、そもそも“長編としなければならなかった理由”など、到底気づくことはできなかったに違いない。1970年(!)に書かれた作品を適切に読了できるようになるのに半世紀もの時間を要するという自分の凡庸さ、想像力のなさが何とも情けない。

この作品の中に情報銀行という種の会社が登場する。実はこの「情報銀行」は昨今、現実的な形で議論され始めており、一部では実際に具現化している。作品の中のそれは、今でいう情報銀行とは少し様子が違うのだが、情報がお金と同様に厳重な管理の対象として、またお金と対価交換できるものだという着想は既に作品の中で描かれている。

我々のほとんどが無償サービスの如く認識してしまったGoogleやFacebookが登場したばかりの頃に、星さんならばこのサービス利用の本質が「利用者情報の提供とサービス利用との等価交換」であることを的確に理解したことだろう。また、今や国家権力にも匹敵すると目されるGAFA(※)の企業パワー増大の脅威に、誰よりも早く警鐘を鳴らしていたかもしれない。

今回は、医療データの品質確保に関する前3回のコラムでは紹介しきれなかった関連情報について幾つか紹介する。データが大容量、“ビッグデータ”となったのはごく最近のことであり、従来のデータ品質確保に要求されるスキルに加え、大容量のデータ特有の新たな品質確保の課題、スキル要求が現れてきた。それはまた私たちの生活やライフログ情報の全てを動画、画像、文字として電子化し保存することが物理的に可能となったという事態をも包含し、つまりは「プライバシー保護」の問題とも密接に結びつくものだ。『声の網』で描かれた懸念が48年の歳月を経て現実化しており、それはまた医療データの活用というテーマと密接に関わっている。

GAFA
Google、Apple、Facebook、Amazonの4企業の頭文字。

分散管理と分散処理

PCやスマホを使っていて、我々が主にストレスを感じるのは画面の読み込みが遅いときではないだろうか。一旦、情報が取り込まれてしまえばその後は大抵、許容できるスピードで操作可能となるのだが、どうにも最初の画面情報が取り込まれるまでのスピードが遅くて困るという体験を誰もがしているだろう。画面情報は文字列とは桁違いに大容量であることも多く、コンピュータにとってその「取り込み」「読み出し」は、“大仕事”である。

一般的にはタスク(仕事)をより効率化しようと考えたとき、同じ作業はなるべく1つところに集約し、できれば機械やITを導入して一度に処理するのが合理的だろう。同じタスクをバラバラにやってしまうと、全体としてみたときの品質もバラバラになりかねない。製薬企業の製造工程で例えるならば、同じ医薬品は同じ製造工場で作った方が効率的かつ品質も維持しやすい。

ところが、大容量データの取り扱いについてはこれとは逆で、データをバラバラに「分散管理」することが今や主流である。データをわざわざ1つところに合流させず、集計作業についてもバラバラに「分散処理」をする。こうすることで時間の掛かる大容量データの大移動、「取り込み」「読み出し」の工程が要らなくなり処理が高速化する。加えて繁閑調整、つまり「暇なとき」の電気代など維持管理費が抑えられるし、コンピュータウイルスの脅威に対してもデータが分散していた方がリスクヘッジできる。

ただし、各々のコンピュータが行った各々の処理について、キチンと正しく合流させるには相応の難儀が生じることになる。これを解消または改善するのに登場したのがHadoop(※)(ハドゥープ。正確にはApache Hadoop)と呼ばれるオープンソースのソフトウェアフレームワークだ。

Hadoop等を利用して自社が主体となって分散管理システムを設計開発するというアプローチではなく、面倒な設計開発が不要な、ほとんど完成済みの分散管理システムを利用するという手もある。コンピュータの“借り家”のようなもので、データを単にストレージ(格納)するだけでなく、様々なアプリやソフトウェアの利用が可能で複雑な電算処理を高速で行える。

こうした市場(パブリッククラウド市場)でもGAFAの存在が目立っており、Amazon社がシェアトップ、Google社のサービスも高速で知られる。大容量データ時代の今、パブリッククラウド市場は今後も成長の一途を辿ることだろう。なお、こうしたサービスはセキュアな環境に情報を格納するという意味で、冒頭に述べた「情報銀行」を想起させるものではあるし、工夫次第で情報銀行サービスに転換することもできそうだ。一方、今考えられている情報銀行はむしろこうしたサービスの利用を介した安易な“データ提供”に対する反省や、企業パワー増大に対する抵抗感から生まれたという見方もある。今後の動きを注視したい。

Hadoop公式サイト
http://hadoop.apache.org/