コード化

「コード化」することがデータを2次的に利用する際に便利であることは言うまでもない。例えば、「肺癌」と「肺がん」といった同一概念で異なるフリー記載を別モノとして集計したのではおよそ目的を達成し得ないであろうし、これに同一のコードを付与しておけば憂いはない、という話だ。しかしながら、コード化の本質的なところは実は奥が深く、単なる処理簡便化の便利アイテムというだけではない。

例えば、「肺癌」は癌、悪性腫瘍の下位概念であり、集計のニーズによっては「呼吸器系疾患」としてまとめたいということもあるだろう。「オントロジー」という言葉をご存じであろうか。コンピュータ科学の世界では「概念体系」として訳されるが、その起源をさかのぼると哲学分野の実在論に行き着く。曰く、「ある」とは何か、「実在」とは何か。そんな世界がオントロジーの起源である。

医療研究の目的とするところでは、疾患概念は研究のスタートポイントとなるところであり、特段、医療データを用いた医療研究を行う際に、疾患概念に関する情報が欠落していると研究を諦めなければならなくなってしまう。肺癌の表現違い(「肺癌」と「肺がん」等)の問題だけでなく、「肺癌(疑い)」や下位概念としての非小細胞肺癌-医薬品の適用症としてもよく用いられる-との関係性、上部か下部か、右の肺か左の肺かといった様々に入り組んだ概念構造に対しても、オントロジーに紐づいた「コード化」をすることでかなり解決できる。

特段、医療用語のオントロジーとして世界的に有名なのはSNOMED-CT(Systematized Nomenclature of Medicine-Clinical Terms)だろう。米国の臨床病理医協会によって1974年に作られたクリニカル・オントロジーであり、現在は概念だけで30万件を超え、英語版とスペイン語版を公式にカバーしている。単純に「集計処理を便利にするため」だけに利用するのではもったいなく、むしろ種々の医療概念の理解習得等にも役立たせるべきものなのかもしれない。あいにく私も、SNOMED-CTを取り扱うという機会に恵まれたことはなく、それでも医療データ活用の国際的潮流からすれば、いずれは日本でも活用が本格化し、利用できる機会に恵まれるかもしれないとぼんやり考えている。

さて、病名データのコードとして日本で現在、最も利用されているのは恐らくICD(※)-10コードであろう。次版となるICD-11もすでに公開されたが、これらは世界保健機構(WHO)が提供している病名コードである。SNOMED-CTのように多種多様な概念体系をケアするものではないが、それでも病名の上層概念と下層概念の関係はケアしており、広い意味ではオントロジー的でもある。先の例に取り上げた肺癌であれば、右肺か左肺かは区別されないものの、上肺か下肺かはコードから区別できる。

その他、医薬品の副作用を医薬品規制上で取り扱う際に用いられるコードとして、MedDRA(メドラ:Medical Dictionary for Regulatory Activities)や、医薬品そのものを取り扱う通称HOT(ホット)コードなどが国際的にも利用されている。すでに導入済みの電子カルテシステム等に新たなコード付与機能を搭載することは難しいだろうが、これからシステムの導入を考える、あるいは電子カルテ等から取り込んだデータにコードを付与し他院との共同研究やビジネスを展開するといった検討をされているのであれば、より社会的に共有可能なこうしたグローバル標準コードやオントロジーの利用を積極的に考えたいところだ。ただし、入力者の負担が無用に増えてしまって医療行為を妨げたのでは元も子もないので、コード化はくれぐれも入力負担増とのバランスで考えなければならないだろう。