フェアな比較のための回帰分析

回帰式の利用は直感的に「目的変数を求めたいから」であることがわかるだろう。真にその目的を果たしたい場合には、入手できたデータのうち半数または7割ほどだけ使ってモデル式を作り、作ったモデルで残りの半数または3割を予測してみてどれだけ一致するのかを試す、というアプローチがとられることも多い。実用前の予行演習、といったところだ。モデル式の実用面はどれだけ未来を予測できるのかというところにあり、他の産業界におけるマーケット戦略、例えばより売上を上げるための分析や、銀行であれば貸付金を返却してくれる確率などは優れたモデル式を各社所有していることだろう。正しそれは他社には知られたくない「自社だけが知っている秘密の説明変数」等が含まれており、門外不出、世に出てくることはまず無い。

一方、医薬系の研究の場合はこうした「未来を予測したいから」という理由以外の目的もある。1つは「その目的変数に影響している因子がどんなもので、どれくらいの影響度か」である。先の「肝臓病の副作用が起きる」に対して例えば、「肝臓が弱っていること」が最も影響が大きく、次いで「A薬処方をしている」「腎臓が弱っている」「肥満体質」「喫煙」、、、のようなランキングが知りたい、そのようなときにも回帰分析を行う。もう1つは今回のテーマである「A薬処方とB薬処方の肝副作用リスクをフェアに比較したい」というニーズである。回帰分析をすることによって「肝臓が弱っている」「腎臓が弱っている」「肥満体質」「喫煙」を「肝副作用の発現」に対する説明変数として「A薬処方/B薬処方」とともにチョイスすれば、基本的にこの4項目の隔たり、ハンデキャップを補正してA薬の処方とB薬の処方をフェアに比較するアプローチとなるのだ。

柔よく剛を制す

[画像のクリックで拡大表示]

さて、こうした回帰式の左辺「aX1+bX2+cX3+・・・」、つまり目的変数を説明するための「説明変数X1、X2、X3・・・」はどのように見つけるのか。前回紹介したように有意差検定を「人間の主観が入り込まない、真に客観的でフェアな審判が出来る優れた手法だ」と誤解されている人が多いのと同様にして、「何らかの適切なアルゴリズムで機械が自動的にチョイスしてくれる」という誤解も多い。しかしながら実際のところはかなり職人的に選択することも多く、悪くいえばご都合主義的なアプローチとなる。しかしながら、これが多変量解析の本質であり、醍醐味であり、より適切なモデル式を見つける、最も面白いところでもある。もちろん、機械的に説明変数をチョイスする“剛”のアプローチ、「変数選択法」という手もあるにはあるが、様々な産業分野において利用されているモデル式はこうした定型的なアプローチだけでベストアンサーが自動的に確定するなどということはまず無く、ヒトの優れたセンスが介在してこそ「中には使えるモデルもある」となる。

柔よく剛を制す。次回はヒトが“柔軟”に対応してよりよいモデル式を作成する工程について掘り下げてみたい。


* George E.P.Box、Wikipediaサイト
https://en.wikipedia.org/wiki/George_E._P._Box