説明変数の作り方と選び方

ところで、「腎合併症(有)」「喫煙(有)」の行には「調整されたオッズ比」が記載されていない。これは「この2つの項目は変数選択法にて選択されなかった」イメージをお伝えしたくて空欄にしたものである。前回、多変量解析の醍醐味は「どのような項目を説明変数として選ぶか」にあり、それは研究者の力量による旨を紹介したのであるが、それはあくまでビジネスや産業界一般における予測モデルの研究分野の話である。医学薬学の研究分野ではむしろ機械的な変数選択法に委ねる方が圧倒的に多い。どういうことか。何より機械的に変数を選出することのメリットは少なくとも「研究者が意図的に自身に都合のよい処理をしている」という懸念をほぼ払拭できる点にある。このため研究成果を論文として公表したいという用途には恣意性が無いという意味で歓迎される。最適モデルでは無いかもしれないが中立性、透明性に優れる、といったところだ。ただ、こうした機械的な変数選択法にもステップワイズ法、変数減少法、変数選択法など複数ある。加えてどの基準で変数を取捨するかといえばどの変数選択法も有意差検定を用いるのであるが、その有意水準には5%だけでなく10%、20%などを選ぶこともあることから、もし「全く信用できない研究者」なのであれば、「意図的に都合のよい手法と有意水準を選んだ疑いがある」という可能性を完全には払拭できないということでもある。

さらに、変数の作り方についても疑われてしまうことになるだろう。具体的にいえば、表1の年齢を「80歳以上」で区切ってYes/Noの2値変数とするのも、体重を「30kg未満」とするのも研究者側の判断、裁量である。75歳や65歳で区切るとか、あるいは年齢や体重をそのまま説明変数として用いてしまうやり方もある。元々のデータそのもののようにみえる「腎合併症(有)」「肝合併症(有)」「喫煙(有)」といった項目であっても、「『有り』には不明も含む」とか、「煙草をやめてから1年経っていない人は喫煙有りに含めた」と定義するなどしていることが多く、結局のところは人為的であって、研究者のご都合主義ではないかという疑いからは逃れられない。モデル解析の場合はこうした“職人”的な施しが研究成果を左右するのだが、第三者から見るとそれがセンスの良いファインプレーなのか、それとも自己都合的なエセ科学なのか見分けにくいところが痛し痒しでもある。

なお、実践の場では変数をどのように定義化するかという問題以上に、当該項目に不明が多い場合の対応をどうするかという問題の方が厄介だ。特に医療データを2次利用する研究では、例えば500人の研究対象症例の「喫煙の有無」についての情報が少なく、喫煙あり50人、喫煙なし50人、喫煙の有無不明400人というケースは良くある話で、この場合は(1)500人での研究を諦めて喫煙の有無がわかる100人だけで研究をする(2)500人での研究にこだわり、「喫煙」という因子がどのように影響するか調べるのは諦め説明変数の候補から除外する、といった苦しい二択に迫られることになる。

傾向スコア法-“紹介出来なかった”多変量解析法-

これまで紹介した多変量回帰分析は、種々の因子が目的変数にどれくらいの影響を及ぼしているかについても調べることが可能である。一方、真に「治療Aと治療Bとでどちらが優れているのか」だけを“ガチンコ”でフェアに比較したい、ということであるならばむしろ傾向スコア法やその応用を用いた方がスマートといえるかもしれない。

ご存じの通り、医薬品の承認申請で用いる研究手法である無作為化二重盲検法は、ザックリといえば2種の治療をコイン投げした表裏で決める、つまりは新たな治療方法になる確率が50%、比較対照となる旧来の治療方法となる確率も50%ということだ。傾向スコア法はこのロジックと少し似ている。実際の臨床現場ではコイン投げをして治療を選ぶということは無くとも、「新たな治療方法が選ばれる確率が50%、旧来の治療方法が選ばれる確率が50%」という状況(容態や患者さんの背景を含めて)となる患者さんは存在し得る。実はこの人たち同士であればあたかも無作為化試験と同様にしてフェアな比較が可能となるのだ。

また、必ずしも50%ずつである必要すら無い。「新たな治療方法が選ばれる確率が80%、旧来の治療方法が選ばれる確率が20%」の患者さん同士であっても、「新たな治療方法が選ばれる確率が10%、旧来の治療方法が選ばれる確率が90%」の患者さん同士であっても実はフェアな比較が可能となる。ザックリというならばこれが傾向スコア法の肝(キモ)である。では、どのようにして「この人は治療Aが選ばれる確率が80%」と計算するのかと言えば、その患者さんが治療選択される前の情報を駆使することになる。容態、年齢、性別、あるいはその時点で処方されている医薬品や合併症も治療選択に影響するかもしれない。こうした因子を主には前述したロジスティック回帰分析等を用いて予め確率計算する。この場合の目的変数は「治療Aが選択された/されなかった」であって、これまで紹介したような「有効/無効」「副作用の有無」ではない。具体的にそれぞれの患者さんに治療Aが選択される確率が例えば41%、8%、93%、75%、、、、といった具合で全員分計算した後、「治療Aが選ばれる確率が75%で、実際に治療Aが選ばれた人」と「治療Aが選ばれる確率が75%であったものの、治療Aは選ばれなかった人」をセットにした比較の解析を行う。他にも「治療Aが選ばれる確率が80%以上、50~80%未満、20~50%未満、20%未満」のように層別解析をしたり、傾向スコアの応用方法であるIPW法(Inverse probability weighting、逆確率重み付き推定法)では、確率の逆数をかけ算するアプローチがとられたりする。傾向スコア法のロジックの見事さは理解すればする程、誰もが感銘を受けると私は思っている。治療Aと治療Bをフェアに比較するには無作為化臨床試験を行う以外に手が無いという誤解をしている人が未だに多いが、傾向スコア法を理解出来れば、観察研究であってもフェアに比較することが出来るのだな、ということに納得がいくだろう。

さて、傾向スコア法が発表されたのは1983年のことであり、欧米では医学に関わらず様々な分野で活用されている一方で日本ではその認知が遅れたため「紹介されなかった多変量解析」とも言われる。本コラムでも十分には“紹介出来なかった”ことをお詫びしつつ、今では国内においても数々の論文、関連書籍、インターネット上の解説などが見つけることが出来るので、是非ともこの機会に理解を深めて頂きたいと願うところである。