χ2検定とフィッシャーの直接確率法

t検定のように分布がわかっているときに行う検定のことをパラメトリック検定と呼ぶのに対し、分布すらわからないという五里霧中のときに行う検定はノンパラメトリック検定と呼んで区別される。こちらの方は手掛かりが少ない分、より判定が困難であり差異のあることを確認するには一般にパラメトリック検定よりも多くのサンプル数が必要となる。その代表選手はχ2検定(かいにじょう、と読みます)なのだが、実のところχ2検定は近似的な手法であって、より正確な珍しさ、P値を求めたいのであればフィッシャーの直接確率法(Fisher’s Exact Test)の方が優れる。両手法の原理を簡単に紹介しよう。

表1のような結果が得られたとする。話を簡単にするために、A薬、B薬の選択には意図が無く、極めてフェアな比較がなされているという前提で考えて頂きたい。仮にA薬もB薬も同じ効き目であったとしたら、これはどれくらい珍しい結果なのかを定量化してみる、ということになる。計算ロジックは「箱の中に“有効カード”、“無効カード”がそれぞれ6枚ずつ、計12枚入っている」とし、「Aさんが6枚カードを引いたらその全てが“有効カード”となる確率」がここでのP値となる。どの程度ありえるのか、具体的な計算式はp=6/12×5/11×4/10×3/9×2/8×1/7=0.0011、として求めることができる。また、ここでも「珍しさの定義」の問題が生じてくる。つまり“これだけ極端な結果となる珍しさ”をどのように定義するかでP値は変わる。「Aさんばかりが当たりくじ(有効カード)を全て引く珍しさ」と定義するならば先の計算式で構わないのだが、「AさんまたはBさんが一方的に当たりくじを全て引く珍しさ」と定義することも、なかなかどうして“かけ離れ度合い”を測るという意味では正当性がある筈だ。2人のお子さんを持つ家庭で、上の子ばかりが当たりクジ6回全て当たってしまうのも、下の子ばかりが6回全て当たってしまうのも兄弟喧嘩の種という意味では違いがないだろう。そんなイメージだ。前者の定義を片側検定、後者を両側検定と有意差検定の世界では呼ぶ。因みに後者の場合のP値は前者のちょうど2倍の値、p=0.0022というのが「ありえる確率」となる。当然といえば当然である。

表1
治療 有効 無効 計(人)
A薬処方 6 0 6
B薬処方 0 6 6
計(人) 6 6 12

一方、χ2検定はA薬治療群とB薬治療群が果たして同じ箱から出てきた同胞なのかという一様性を確認するために、こうした偏重した結果が生じてしまう「ありえる確率」を求めるアルゴリズムだ。期待されるべき結果は「本来6枚カードを引けば、有効が3枚、無効が3枚となる」ことがノーマルであり、それと比べてどれだけ乖離しているのかを近似的に求める。この原理であるが故に、前述したフィッシャーの直接確率法とは違い、χ2検定は両側検定しか出来ない。