アンフェアとエンターテイメント性

小よく大を制す。先般、大関に昇進した貴景勝関は平成以降では最も背の低い力士だそうである。

大相撲は昔からこうした小兵力士が大きな相手を負かすシーンが大変盛り上がる。これは何より “無差別級”、つまり体重別に階級を分けていないからこそ対戦カードが組まれるのであり、大相撲のエンターテイメントとしての醍醐味といえるだろう。一方、同じ国技である柔道の方は国際競技に格上げされて以降、ボクシングやレスリングと同様に細かく体重別に分けられており、もはや「小よく大を制す」シーンは公式試合で見ることが出来なくなってしまった。体重別に階級分けをすることをよしとするのか、それとも分けないのかについてはそのスポーツが何を目指すのかによって異なってくることだとは思う。では医療系研究分野にあってはどうだろうか。例えばA薬が軽症の人に処方され、一方でB薬の方はより重症例に処方されている実態があったとしたらならば、双方の有効率をフェアに比較するためにはそのまま集計された結果で“勝敗”を決めるわけにはいかないだろう。これではB薬があまりに不利、アンフェアな比較となってしまう。

今回取り上げるのは実際の医療現場で得られた情報をいかにして公正な、フェアな比較や判定をすることが出来るだろうか、その為の統計的手法についてである。無作為化臨床試験のように治療の選択に無作為性が担保されているならばこうした悩みは基本的に生じにくいのだが、リアルワールドデータを取り扱う人にとっては背景の異なる群間をフェアに比較するための統計スキルは必須科目である。

層別

2つないしそれ以上の治療をフェアに比較する上で第一選択となるのが層別である。「全体」として集計したのではアンフェアであっても、軽症の人と重症の人と、群を分けて比べることで少なくとも単純に全体を集計した結果よりも価値ある結果と妥当な考察が出来る。表1をご覧頂きたい。何らかのイベント、それが「寛解」「完治」のようなポジティブなものでも「死亡」「副作用」のようなネガティブなものでも、2つの治療で比較した結果はこのような形(クロス表)で表記されることが多い。例えば肝毒性のリスクが知られているA薬が、実際のところ従来の標準治療薬B薬と比べてどの程度の肝臓由来の副作用が発生しているかを調べたいとしよう。それぞれ1000例ずつ調べて見たところ表1のように意外にもどちらの治療薬でも当該副作用の発現率に差異はなく、むしろ心配していたA薬の方の発生率が1%低い。この結果をもってしてどのような考察が妥当だろうかを考えてみる。果たしてA薬の肝毒性は心配する程でもないのだろうか。

表1
全例 副作用有り(人) 計(人) 副作用の発現率
A薬処方 140 1000 14.0%
B薬処方 150 1000 15.0%

ここで気になるのがそれぞれの患者さんの背景の違いである。A薬を使用するうえで「肝毒性が知られているので、肝臓に合併症や既往歴のある人には慎重投与」が徹底されていたとしたらどうだろう。当然のことながらこうした人には従来通りB薬が処方される可能性が高くなる。結果的に「肝合併症の有無」がA薬処方群とB薬処方群とで比率が大きく異なってくる。それを示したのが表2と表3である。A薬処方群の中には肝合併症の人が1000人中100人とごく僅かである一方、B薬の方はその“あおり”を受けて1000人中400人も肝臓に元々合併症のある人が含まれていた、こんなケースは良くあるだろう。さて、全体を「肝合併症有り/なし」で分けてみると、全体ではB薬処方の方がリスク高のように見えていたものが、肝合併症有り群でも肝合併症なし群でもどちらもA薬処方の方が副作用の発現率が高いという結果となった。このように全体の結果と層別した結果があべこべになることを統計学の世界ではシンプソンのパラドックスという。フェアな比較をする第一歩はパラドックスが起きていないかどうか、特段結果に重大な影響をもたらす因子(ここでは「肝合併の有無」)で層別することである。

表2
肝合併症有り群 副作用有り(人) 計(人) 副作用の発現率
A薬処方 50 100 50.0%
B薬処方 120 400 30.0%
表3
肝合併症なし群 副作用有り(人) 計(人) 副作用の発現率
A薬処方 90 900 10.0%
B薬処方 30 600 5.0%