データ・バリデーション

データ・バリデーションは、簡単にいえば男性を誤って「女性」として入力してしまわないか、「肺がん」を誤って「乳がん」として入力してしまわないか、またこうしたミスを最小限に留めるための方法論を扱う。具体的にはどのような“対策”があるだろうか。

まずは種々の入力規制が考えられるだろう。日付データを入力する項目であれば“YYYY/MM/DD”(年号を4桁、月を2桁、日を2桁で必ず入力する)の書式でしか入力することができないようにする、あるいは体重欄であれば4桁以上の数字を入力できないようにするといった入力システム仕様の設定をすることだ。こうしておけば日付データに和暦データは混ざらないだろうし、「中旬」「頃」といった曖昧データも入力ルールの工夫で(例えば2018/08/99と入力する等)入力不可能な状況を避けつつ、2次利用しやすいデータの確保が可能となる。

また、「体重」欄に1000を超える数値を入れなくしておけば、乳児の5000(g)は「5」(kg)と正しく入力される可能性が向上するだろう。一方、先に述べた通り入力する際の負担増は避けたいところもあるので、入力時には規制をあまりかけずに月末に定期的な書式や論理矛盾のチェック(有り得ない日付の逆転や外れ値の探索)をまとめて行うという方法もある。

さらにはデータを入力する段階で2名が同じデータを入力し、システム内部でコンペア(比較)することで一致したときだけ格納するというアプローチもある。この場合、不一致箇所がなくなるまで入力者またはコンペアの実施者が修正する。製薬企業やCRO業界ではこうしたダブルエントリー(複数者による入力)&コンペア機能の利用は一般的に行われている。

ちなみに、医師の専門性の不足から誤った病名と診断したり、保険請求等の関連から意図的に“レセプト病名”を入力したりといった種の「事実とは異なるデータ」の課題は、一般的にはデータ・バリデーション上の課題として含めない。あくまで入力作業のケアレスミス防止がCDMとしてのデータ・バリデーション上の目標となる。

もう1つの“CDM”

[画像のクリックで拡大表示]

今回のコラムについて、医療データの品質の課題に詳しい人が読まれたら「CDM」の略号に少し戸惑われたかもしれない。実はこの分野でCDMと呼称するものがもう1つあり、それはCommon Data Model(標準的な医療データ構造)のことである。医療データを取り扱う上でCDM(Clinical Data Management)の基礎的知識を習得しておく必要があることは間違いないが、そのスキル(技術)獲得だけをデータ品質課題解決のゴールとするのは少し待っていただきたい。

もう1つのCDM(Common Data Model)の課題とは、自身が便利に使っている医療データの構造や仕組みが、もしかしたら他の研究者団体、他の一派とは相容れないものであって、ときにそれが日本やグローバル社会にとっては不都合、非合理ということだってあるというものだ。高いCDM(Clinical Data Management)スキルの所有者同士が仲良く同じデータ構造のCDM(Common Data Model)を取り扱うようになる、医療データ品質管理の目指すべきゴールはそこに置きたい。

ICD
International Statistical Classification of Diseases and Related Health Problemes:疾病および関連保健問題の国際統計分類

第9回終わり(第10回に続く)