ウソ、大ウソ、統計

「ウソには三種類ある。ウソ、大ウソ、そして統計である。」

決して昨今の統計不正の話ではなく、この言葉は百年以上も前からあるらしい*。意図的な不正やねつ造の類とは別に、我々人間の方が統計処理した結果について勘違いしてしまい、詐欺師は居ないのに勝手に詐欺にあってしまう。具体的に言えば前回、前々回に紹介したようなバイアスの存在には必ずしも気づくことが出来ず、例えばインターネットによるアンケート結果をあたかも日本人全体の意見であるかのように解釈をしてしまうことが往々にしてある。アンケート参加人数の多さには目がいっても、「インターネットを使わない人は含まれていない」ことにまで案外と意識が回らなかったりするのだ。さらには、種々の統計的手法に対する理解も決して十分ではない。医学研究論文を読む際に、統計手法の項を十分に理解し、ときにその適切性を批判出来るレベルの読み手がどれほど居るのだろう。手法が適切なのかどうかを見定められなければ、論文の考察をそのまま鵜呑みにせざるを得ない。あるいはその反対に結果が自身の仮説と違っていたならば、仮に適切なデザインと手法に基づく研究であっても、必ずしも適切な研究だとは認識出来ないため頭の中で勝手にリジェクト(拒否)してしまったりすることになるだろう。

もちろん、統計学という学問には悪気がある筈はなく、本来ならば嘘つき呼ばわりされる筋合いはない。我々が勝手に“統計による詐欺”に合わないためには、バイアスの存在の察知力に加え、統計学が取り扱う手法の(難しい計算式の理解はさておき)本質的な部分の理解が必要不可欠だ。今回からの5回は統計学について取り上げる。まずは“主役”の「平均値」のおさらいから始めたい。

平均値を初めて学んだ頃

平均値なんて説明しなくていいよ、とご批判されるかもしれない。確かにどういう計算ロジックなのかは皆さんきっとご存知だろうし、計算式をここで掲載する必要もないだろう。ただ、「平均値って何?」と、つぶらな瞳の小学生に聞かれときに適切な説明が出来るかどうかとなれば案外と容易くは無い筈だ(“つぶらな瞳”でない小学生の質問ならば、単にあなたをテストしているだけかもしれないのだが)。もし計算式だけしか説明が出来ず、何故そんな計算をするのか答えられないのだとしたら、平均値の「本質的な部分の理解」が足りていない可能性がある。少し小学校時代にタイムトラベルをしてみよう。

「うちのクラスの数学のテストの平均は70点でした。隣のクラスは65点でした。」なんて話を聞くと、きっと「おぉ」とどよめきが起きていたことだろう。「勝った!」なんて言う子もいるかもしれない。これが合計点だとしたらどうだろう。「うちのクラスでは数学テストの合計点が3000点で、隣のクラスは2900点でした」と聞かされて同じような盛り上がりを見せるのはせいぜい小学校の低学年までだろう。隣のクラスの児童がインフルエンザで5人欠席したことを伏せて担任教師が合計点だけを意図的に伝えていたのであればこれは「ウソ、大ウソ、統計」である。平均点で負けていたことを隠した”詐欺”の首謀は統計学ではなく担任の先生だ。また、後で述べる中央値で論じるのも違和感があるだろう。「うちのクラスも隣のクラスも中央値は60点でした」といわれてもスッキリしない。言うまでも無く平均値には総計を「一件あたり」(ここではクラスの児童一人あたり)に補正するという特性があり、これは公正な比較をしたいときに便利である。小学校高学年にもなると我々はこうした平均値の特性に慣れ親しみ、逆にいえば親しみ過ぎるが故にあたかも万能な指標の如く、その本質や留意点を見誤りがちになるともいえる。