パン屋の不正、再び

先回最後に紹介したポワンカレの逸話には後日談がある。重さの平均値からパン屋の不正を見破った彼は、さらに以降も購入するパンの重さを測定し続ける。確かに平均値としては以前と明らかな違い(つまり平均としては1kgにより近い値に是正)があったものの、その分布がどうもおかしい。以前の斤量は950gを頂点とした左右対称のバラつきであったものが、期待通りに1kgを頂点とした左右対称のバラつきにはならず、斤量の分布が不自然であったということである。そこから「パン屋は反省したフリをしただけで、実は相変わらず950g平均のパンを製造・販売している。不正を指摘した自分にだけはその中から単に大きめのパンを渡しているだけだ。」という結論に至ったとか。100年以上も前のことなのでどれだけ真実味のある話なのかは定かではないが、データを用いる私たちにとって平均値や中央値だけでなく、データの分布に関する理解が加わればウソやノイズ、データ特性にさらに気づけるようになるのは間違いない。クラスの平均値が70点であっても、クラスメイト全員がほとんど70点前後である場合と、0点から100点まで広く散らばっている場合とでは自分がとった点数の意味合いはかなり違ってくる。

そうは言うものの、平均値や中央値に関して理解習得に苦しむ人が殆ど居ない一方で、分散や標準偏差ということになると途端に拒絶反応を示す人が多いようにも思える。これはどういうことなのだろう。確率・統計を学ぶ中で、もしもデータ分布の辺りから苦手意識が芽生えてきたとご記憶されている方がいらっしゃるとしたら、今回のコラムをきっかけに“敗者復活”されることを願うばかりだ。今からでも決して遅くはない。

正規分布

東京お台場パナソニックセンター内にリス-ピア*という、「理数」を題材としたテーマパークがあるのをご存じだろうか。そこに「球はどんな形にたまる?」という、板ガラスの2次元的空間のオブジェクトの中でパチンコ玉のようなものを大量に上から落として、下層にある十数カ所に区切られたマスに何個ずつ入るかを試すという、木材で出来たコンテンツがある。地味なのでリス-ピアに行かれたことのある人すら覚えていらっしゃらないのかもしれないのだが、これがまさしく “正規分布作成装置”になっている。

正規分布の存在を世に紹介した人が誰なのかは諸説あるようだが、ある種の「より正確な値」に測定したりモノ作りをしたりする際に発生する誤差がことごとく正規分布になるよ、と広く世に知らしめたのは数学者ガウスであり、それ故「ガウス分布」とも呼称される。英語名でNormal Distribution(ノーマルな分布)という通り、正規分布はデータ分布の中で唯一無二の絶対的王者であり、正規分布の発見と活用促進が統計学を大きく発展させたと言ってよいだろう。然るに、リス-ピアのコンテンツは何ら奇をてらった怪しい細工がされているものではなく、私たちが何かを正しく測定しようと頑張ったときに生じてしまうわずかな誤差が真値に対して左右対称の山の形、正規分布を形成することをただ実体験させるために受け皿を区分けしているだけに過ぎない。正しく何かを均一に作ろうという場合も同様であり、その誤差は正規分布する。先のポワンカレの話も「1kgを平均とした正規分布をしていないことに気づいた」と言い換えることが出来るだろう。また、先回紹介した「日本人の世帯別貯蓄」は極端に右側へ裾野が延びており到底、正規分布とは似ても似つかないものであるのだが、そこから例えば1000世帯のサンプルを無作為に抜き取って得た平均貯蓄額については、そのサンプルの取り出しを何度も何度も繰り返して行うと(つまりサンプルによる平均貯蓄額をたくさん算出すると)その分布は正規分布となる。このように本体が特殊な分布であっても、その分布の平均値を求めようとするサンプリングで得られる分布が必ず正規分布になるというのは、まるで「我々は正規分布から逃れられない」ようにさえ思えてくる。それだけ正規分布は(ガウスと共に)偉大なのである。