投打に活躍する大谷翔平選手の活躍ぶりを毎日楽しみにしている。情報化時代の現代では、遠く離れた米国での彼の活躍もオンタイムで知ることが出来る。ところが、つい数年前のことなのであるが、日本のプロ野球ですでに投打で活躍していた大谷選手の打者としての成績が、Yahoo!のスポーツサイトでは他の打者のように詳細を閲覧できなかった時期がある。それは彼が「投手」として登録されていたからであり、大谷選手の名前をクリックすると表示されるのは投手成績のみであった。恐らくは大谷選手が現れる前までは投手と野手を分類する、この仕様でほぼ何ら問題も苦情もなかったであろう、「投手は投手成績、打者は打者成績を表示する」仕様は現在、投手であっても「投手成績」と「打者成績」を両方表示する仕様に変更されている。

医療データは以前であれば、およそレセプトと呼ばれる保険請求のデータと、電子カルテのデータ、その他のデータといったように3つないしは4つに分類すると事が足りていた。今でも標準的な「臨床研究」「疫学研究」と呼ばれる類に医療データを用いるのであれば、こうした分類で特段、不便もないことだろう。

一方で、時は情報沸騰時代に突入している。何十年と同じような仕事をしている私もこのところは生物統計学や疫学というよりも、「医療データサイエンティスト」のような呼称の方がしっくりくるような、古典的な研究領域以外にもいよいよ足を踏み込まなければ立ちゆかなくなってきている。然るに、これまでのような分類で事が足りないこともままあり、それは大谷選手の登場のようなこれまでの分類が不都合となるケースにも似て、時代の変遷に合わせてもっと良い分類の仕方があるかもしれないことを示唆する。

元来、分類というのは何が正解ということではなく、自身や同じ分野の研究者にとってどのように分類するのが好都合なのかということに他ならない。今回は、「現代版医療データの分類」についてどのような切り口があるのか探りながら、いかに現代の医療関連データの裾野が広がっているのか、再認識してみる機会としたい。

お金のやりとり「有り」「無し」での分類

結果論でいえば、先のレセプトデータと電子カルテデータの線引きと程近い分類ではあるが、医療データの中でそれがお金のやりとりに関わっているのか、そうでないのかの2つに分類をするという立場がありそうだ。前回のコラムでも、大手コンビニエンスストアのレシート情報に関して、そこでレジ係が入力する性別と年代はお金のやりとりには直結していないため、品番、数量、価格といった情報ほどには信用できない旨を紹介したが、医療データでも同様のことが言える。

レセプトデータのうち、お金のやりとりに直結する項目は信頼性の面で格上にあるのだ。その反対に、電子カルテ上の項目はお金に直結しないわけで、例えば「体重(kg)」欄に、「500」、「5000」のような到底信じられない数値が入っていたとしても、さして誰も困りそうにない(前者は小数点の入力ミス「50.0」、後者は乳幼児であって5000gが正しそうではある)。

一方で、お金のやりとりに関わるレセプト上の保険点数の欄に桁違いの数字が間違って入り込む可能性はどうかといえば、こうした間違いは経営や時に賞罰にさえ関わる案件とも成り得るのであって、そんなヘマが頻繁に発生するとは想像できない。相応レベルのジャーナルに論文として掲載される研究に、レセプトデータが多く使われているのはこうした事情が背景にあるだろう。

また、こうしたデータの信頼度の側面からみると、2016年1月より施行された、がん登録推進法(正式には「がん登録等の推進に関する法律」)で得られる「がん登録」データなどは、その記入ミスは許され難く、これは信頼性の面で期待が大きい。加えてレセプトに記載される病名のように、実際の病名との乖離の心配もほとんどなさそうだ。無論、がん登録データを本格的に活用するためには、前回コラムで述べたNDBやMID-NETといった他の医療データとリンクしてこそ、ということにもなるだろう。がん領域のみならず、種々の疾患をこうした規制下で登録し、2次利用できる仕組みになると日本の医療データの信頼性は世界的に見るともう一段、向上することだろう。

なお、レセプトデータは電子カルテよりも信頼があるといっても、レセプトに記載された病名が真の病名であるとか、その医薬品が100%患者さんに服用されたとみなせるという意味では決してない。あくまで医薬品が患者さんの手元に渡ったらしいこと、医療行為がなされたらしいことにかなりの確からしさがある、それ以上のことではない。