箱ひげ図(Box Plot)

データのバラツキについては標準偏差さえ理解しておけば問題ない、としたものの、よりシンプルにはレンジ、つまり最小値と最大値をセットで表記する等、種々の簡便な表記方法が提案されているので補足しておきたい。中でもデータ分布を描写するときに便利なのが「箱ひげ図」である。図の通り、先回、今回と紹介した指標の多くが図示されており、箱ひげ図で提示されていれば、データの分布をセンシティブに気にされる人も文句は言わないだろう。ただし、肝心の「ひげ」にあたる部分の上下の線の末端については国際的な標準ルールが無いのが残念であり、今回図示したサンプルは平均±2倍の標準偏差としたが、これが「平均±(1倍の)標準偏差」だったり、四分位点の1.5倍の値であったり、あるいはシンプルにレンジ、つまり最大値と最小値だったりするので注意が必要だ。この箱ひげ図を用いて、治療前後における検査値の推移を比べたり、治療A群と治療B群における体温の分布を視覚的に見比べたりすることが出来る。

人材は何処に?

[画像のクリックで拡大表示]

さて、本コラムをお読み頂いただけで統計学の専門力が身につくなどということを期待されている人はさすがに居らっしゃらないと思うし、私にそのような離れ業が出来る能力もない。となればやはりご自身の周囲に、ご自身と共に研究参加してくれる統計家の存在が渇望されることだろう。私もその渇望をしている一人であり、リクルートの機会などを利用しながら、あるいは社内外を歩き回って人材を常に探している。統計学に明るく、私と一緒に仕事をしてくれる人は一体どこにいるのだろうか。新人やキャリア採用の面接をさせてもらう機会では「統計学は得意です」と言う人に会えることもあるのだが、そんなときには決まって私から「標準偏差と標準誤差の違いを説明して頂けますか」と問いかけるようにしている。今回のコラムを読まれた方ならば私が期待する返答を想像出来ることだと思うのだが、案外とそうした返答をしてくれる人は殆ど居ない。計算式については正しく説明は出来るのだが、肝心な各々の指標が意図するところを必ずしも的確には説明してくれないのだ。それはある意味で優等生らしさ-教科書に従順で正しく算術出来るという意味において-の象徴なのかもしれないのだが、一方では「どうしてこんな計算ロジックになっているのだろう」といった疑問や自身の頭で考える癖がもしかしたら無いのかも、という不安要素にもなってしまう。さて、こうしてネタばらしをしてしまった今、面接試験用に新しい統計学の質問を考えなければならなくなってしまった。困った。


箱ひげ図のサンプル