P値狂乱(p-value madness)

現在、有意差検定の置かれている立場は実は憂うべき状況にあり、医薬品開発に無作為化臨床試験を導入したルイス・ラザーニャ氏はこの状況を“P値狂乱”と言ったらしい。医学誌「Epidemiology」では「統計的有意差検定を使わない方が、受理される可能性が高まるとお伝えしたい」と表明された。さらには、本来はこうした統計的アプローチの“スポンサー”的な立場である筈の米国統計学会からも、なるべく使わないで、という趣旨の声明が出ている*。有意差検定を「人間の主観が入り込まない、真に客観的でフェアな審判が出来る優れた手法だ」と信じて疑わない人にとってみたら、一体、何が起きているのかこの状況が飲み込めないことだと思う。一体、どうしてこんなにも批判されているのだろうか。課題を幾つか列挙してみよう。

【課題1】「有意差が無かった=差がなかった」の誤解

仮に表2のような結果が得られたとしよう。このような状況の「珍しさの定義」は一般に「AさんかBさんが引いた6枚のカードが全てまたは5枚以上、当たり(“有効カード”)となる確率」で計算される。「ありえる確率」P値は8%、p=0.080であり有意水準を5%とするならば「有意差なし」という結論となる。しかしどうだろう。A薬の効果5/6=83%というのはB薬の効果1/6=17%と圧倒しており、これをもってして有効性に差がなかったとするのはおかしくもある。あくまで調べたサンプル数が少なかったのであって、「A薬とB薬の効き目に差がなかったことが示された」とするのは間違った解釈だ。有意差検定における「有意差なし」とは常にこのこと-サンプルが少なく判断不能-決して差がないことが示されたわけではないのである。

表2
治療 有効 無効 計(人)
A薬処方 5 1 6
B薬処方 1 5 6
計(人) 6 6 12

【課題2】20回の試行に1回程度の「差がないのに、差がある」判定ミス

一般に「多重性の問題」と呼ばれる、有意差検定の大いなる弱点である。ありえる確率が5%未満なら「ありえない」とするロジックは、実際に差異が無くとも20回に1回ほど「有意差あり(差があった)」というミスジャッジを犯してしまう、というレベルの判定精度である。例えばA群にもB群にも同一成分の医薬品を処方した研究を実施したとしよう。これを幾度も幾度も繰り返すと、何度か目の研究でA群がB群に、あるいはB群がA群に、「ありえない差」をもって圧勝してしまうことがあるのだ。

【課題3】価値の無い「有意差あり」判定

この課題はビッグデータ時代の今、ますます大きくなってしまった。表3のように莫大な数字を得られる機会はもはや現実的である。A薬の有効率50.0%に対して、B薬49.5%はおよそ「全く同じ」と言っても良さそうなものだが、有意差検定ではこれが「有意差あり」となる(p=0.025)。要するに我々人類、社会、医療にとって取るに足らないわずかな違いが、莫大なサンプル数によって「有意差あり」となってしまうのである。

表3
治療 有効 無効 計(人) 有効率(%)
A薬処方 50,000 50,000 100,000 50.00
B薬処方 49,500 50,500 100,000 49.50
計(人) 99,500 100,500 200,000 49.75

有意差検定の様々な誤用については、正直私も疲弊している一人である。しかしながら、それでもなお有意差検定には活躍してもらわなければならない局面もある。例えば医薬品の承認申請で実施される臨床試験は、未だ有意差検定以上の良策が提案されていない。然るに医薬系の研究に携わる人も、医療従事者も、製薬企業社員も皆、有意差検定のロジックを理解し、誤解や誤用の無いように今後も努めなければならないのである。

珍しさを気にする

「史上初」「世界一」「10年ぶり快挙」…。メディアはより大げさに、珍しいことだと受け止められる表現を好む。読者はその表現を聞いて、ときに現実に起きたことそれ以上に驚嘆する。これは我々が「この事象は、どれくらいの珍しさだろうか」についてかなり気にしている証拠でもある。例えば…製薬企業に勤務しながらコラムと漫画を連載するというのは、どのくらいのP値なのだろう。こんな調子である。


*米国統計学会声明
https://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108#.XJIBxyH7SyY
日本計量生物学会による公式な日本語訳
http://biometrics.gr.jp/news/all/ASA.pdf