相関係数

一般に相関係数と言われているのは、ピアソンの積率相関係数のことだ。計算式は省略するが、計算ロジックからすれば2つの調べたい事柄の間に直線的な関係があるかどうかを示す指標である。一番大きい値が1なので、相関係数が0.9ともなると、相当強い関連性と解釈されるだろう。全くもっての無関係であれば相関係数は0となる。また、一方が増えると他方が直線的に下がるならば、相関係数は最低値となるマイナス1により近づく。1に近ければ「正の相関」、マイナス1に近ければ「負の相関」という。

実例として日本の平均余命(※)から高齢化に関する相関係数を求めてみよう。「1950年、1960年‥‥、2010年」の10年単位での日本人(男女合計の値がなかったため女性の値を採用)の平均余命7件に加え、先日発表された「2017年の平均余命87.26歳(女性)」の計8件分の数字をMicrosoft Excelに入力して計算すると、相関係数は0.97となる(Correl関数)。同様にして年度と世界の年平均気温偏差(※※)との相関係数を計算してみると0.98となった。どちらも医療データ分野ではなかなか見られないレベルの大きな値である。

相関係数は利用する上での前提条件もないため、本格的な研究の事前解析等でよく利用されるが、その解釈には注意が必要である。あくまで直線的な関係をみるため、仮に明確な“曲線的な関係”があったとしても、関係性が直線的ではないので0に近い値、つまり無相関とされてしまったりする。また、わずか1件や2件程度の外れ値に大きな影響を受けてしまう。試しに、実際の平均余命ではなく、先ほどの1950年からのデータを80歳→80歳→80歳→80歳→80歳→80歳→80歳→81歳の順で2017年まで上書きしてみると、さてどれくらいの相関係数になると予想されるだろうか。

最後の2017年が80歳であれば全く変化が生じないため、そもそも相関係数は計算できなくなってしまうのだが、それが1歳だけ大きい81歳にしただけでも、あるいは80.01歳と入力しただけでも相関係数は0.55とかなり大きめに算出されてしまう。逆に、79.99歳と入力したなら相関係数はマイナス0.55となる。センシティブ過ぎるというのも困ったもので、相関係数の解釈にはくれぐれも注意されたい。

交絡(Confounding)

さて、上述した日本人の平均余命と世界の年平均気温偏差との相関係数は、0.94という大きな値である。これをどのように解釈したらいいのだろうか。あまのじゃくな人は、「温暖化と高齢化には関係がある。温暖化を防げば逆に寿命は縮まってしまうだろう」という説を唱えるかもしれないが、さすがにこれはおかしい。「温暖化」と「高齢化」の間には「年度(時間)」という因子が介在しており、どうやらこの「年度(時間)」が無関係な2つの事柄をあたかも強い因果があるかのように見せかけている犯人、そう考える方が妥当だ。つまり、年度が進むにつれて増加傾向にある様々な事象、例えばスマホの普及、海外からの旅行者、がん死、フィットネスジム増などのそれぞれは、仮にお互いの関係がなくとも、「年度(時間)」がそれぞれの事象の関係性を“仲介”することで高い「相関」を示すことになる。

このような2つの事柄をあたかも関係があるかのようにウラで振る舞う因子を、疫学の分野では交絡因子と呼んでいる。別の例でいえば、「コーヒーをよく飲む人」と「肺がん」との間に相関がみえたとしても、コーヒーを飲むことそのものが肺がんリスクというわけではなく、「コーヒーをよく飲む人は喫煙者が多い」だけであって、コーヒーは単なる濡れ衣といった場合もそれだ。この場合は喫煙が交絡因子ということになる。

特段、医療研究の中で問題となるのは、「適応の交絡(Confounding by indication)」だろう。比べたいのがA薬とB薬であるのに、重症例にはA薬ばかり処方されていたとしたら、フェアな比較ができない。単に「A薬を処方されるような(重症な)患者群」と「B薬を処方されるような(軽症な)患者群」を比べるだけに過ぎない、こうした問題のことを指す。このようなアンフェアな状況の補正には疫学のスキルがないと対処は難しく、もしかしたら多くの医療者がこうした適応の交絡という壁にぶつかり研究を断念しているかもしれない。