2016年6月16日木曜日

操作変数法(IV法)について

はじめに

PRRISMでは、臨床研究や実態調査の計画段階から調査実施、分析、論文執筆や成果発表の段階に至るまで、調査研究の遂行に関わるあらゆる段階でお客様のサポートを承っております。お客様のご要望の中には、倫理上の問題等からランダム化比較試験のようなデザインが難しい調査や、レセプトデータもしくはDPCデータの研究(観察研究)に対して、より正確な因果効果を測定したいというご要望も数多くございます。今回ご紹介する「操作変数法(IV法)」とは、こうしたご要望に対して有効な手法のひとつです。インターネット上にはIV法に関する説明が他にもありますが、本コラムでは実例の紹介等も交えてできるだけ分かり易くご説明したいと思います。


操作変数法(IV法)とは

操作変数法(IV法)は、主に社会科学の分野で利用されている統計手法であり、しばしば未統制の要因による交絡を効果的に防ぐことを可能にします。一例を挙げると、ある患者に対してどのような処置をしたか、どんな薬を処方したか、など、医学的な介入にはしばしば強い選択バイアスがかかります(たとえば、癌化学療法の有無と予後の生存率との間の関係を調べる場合、癌化学療法の適応可能になる患者はそもそも生活自立度が高い患者が多く、予後の生存率との間に相関をもってしまうことになります)。IV法は、上記のような統制されていない要因からのバイアスを防ぎ、介入本来の因果効果を推測する上で有効な手法です[1]


IV法が有効に働くケース

以下のような問題を考えてみましょう(Wooldridge, 2009; Chapter 15[2]より)。あなたは、会社員の教育年数と年収との関係について調査したいとします。単純なモデルとして、下のような線形モデルから、会社員の教育年数が1年増加した場合に年収が何%増加するか(β1)を推定したいと考えるかもしれません(式(1))。



(1)
                                                              
ところが、よくよく考えてみると、年収は当然その会社員の[能力] (上の式では誤差項uに含まれます)にも依存しているでしょうし、さらには[能力][教育年数]との間にも相関が存在することが予想されます。このようなケースでは、 最小二乗法によって求められたβ1の推定量にはバイアスが生じてしまいます[3]

できることならば、式(1)に[能力]の項を付け加えた式(2)のようなモデルを作って[能力]の違いを統制したいところですが、[能力]は多くの場合観測不可能であるため、このモデルはあきらめるほかなさそうです。


(2)


【操作変数の設定】

ここで、不偏性を満たすβ1の推定量を得る手段として、「操作変数」と呼ばれる変数を設定することになります。ここでは、観察可能な変数として会社員の[母親が受けた教育年数]を考えてみます。
すると、[母親が受けた教育年数]と他の変数との関係は、だいたい次のようになることが仮定できるでしょう。
1.      一般的には、母親が受けた教育年数が長ければ長いほど、その子供(会社員)の教育年数も長くなると思われます。すなわち、[母親が受けた教育年数]は会社員本人の[教育年数]との間に相関(この場合は正の相関)をもつと仮定できます。
2.      会社員の能力は、当該会社員が受けた教育の過程や経験によって培われるものであるため、当該会社員の能力はその母親が受けた教育年数が長いか短いかに影響を受けるとは考えにくいでしょう。すなわち、[母親が受けた教育年数]は、会社員本人の[能力]との間に関係をもたないと仮定できます。

上記2つの仮定が成り立つならば、[母親が受けた教育年数][教育年数]についての操作変数として利用することによって、β1の不偏推定量を得ることができます。


【操作変数を用いたモデル・パラメーターの推定】

操作変数を用いて介入本来の因果効果を分離する方法として、一般的に用いられているものに「二段階最小二乗法(Two-Stage Least Squares; 2SLS)」があります。この手法は、まず介入(上記の例では[教育年数])を操作変数(同[母親が受けた教育年数])で回帰し(第一段階)、それから第一段階で得られたモデルで推定された操作変数に対する介入の予測値を説明変数として目的変数(上記の例では[年収])を回帰することになります(第二段階)。この作業により、介入([教育年数])のうち、統制されていない変数([能力])とは関係がない成分が目的変数([年収])に与える効果のみを取り出すことができます。


【操作変数の条件】

ある介入(上の例では[教育年数])に対して以下の2つの条件を満たす変数は、その介入に対する操作変数に適しています。


条件
検証方法
条件1
操作変数は、その介入との間に相関を有する。
zxとの間で単回帰を行い、zの係数がゼロでないことを確かめる。
条件2
操作変数は、誤差との間に相関を有さない(介入や測定されている要因以外の要因でアウトカム(上の例では[年収])との間に相関を有さない)。
通常検証することはできないため、理論的に考察する必要がある。
z: 操作変数、x: 介入、u: 誤差とする。また、Cov( )”とは共分散を表す。




過去の文献における操作変数法(IV法)の使用例

上の解説から分かるように、操作変数の条件を満たす変数を見つけるのは容易ではありません。ここでは、参考までに過去に操作変数を用いて効果的な分析を行った研究の例を紹介します。

事例
Angrist (1990)[4]
Kahn et al. (2009)[5]
Bjørngaard et al. (2010)[6]
目的
ベトナム戦争への従軍がその人の生涯賃金に与えた影響を調べたい。
病院の規模と医療の質(この論文では人口呼吸機装着患者の生存率)との関係を調べたい。
高いBMI(ボディマス指数)とうつ病や不安障害のリスクとの関係を調べたい。
アウトカム
被験者の生涯賃金
人工呼吸器装着患者の30日生存率
うつ病や不安障害のスケールや自殺の有無
介入
x
「被験者の従軍の有無」
「大規模病院(年間入院数が300以上)への入院の有無」
BMI
考えられる未統制の
交絡因子
u
「従軍前の賃金」(従軍した方が高収入になる人ほど、従軍を希望する傾向にある。)
「患者の臨床的リスク」(規模の大きな病院ほど重篤な患者が集まっている可能性がある)
「健康状態」(BMIが高いほど悪い傾向がある。)
介入に対する操作変数
z
ベトナム戦争時代に一時的に行われていた「徴兵くじの当選」の有無
「患者の自宅と最寄りの大規模病院までの距離」
「被験者の子供のBMI
条件1
「徴兵くじの当選」は、その後の「従軍の有無」と関係している。
「患者の自宅から最寄りの大規模病院までの距離」は、「大規模病院への入院」と関係している。
「被験者の子供のBMI」は「被験者本人のBMI」と関係している。
条件2
「徴兵くじの当選」は、「従軍前の賃金」とは関係がない。
「患者の自宅から最寄りの大規模病院までの距離」は、「患者の臨床的なリスク」とは関係がない。
「被験者の子供のBMI」は「被験者本人の健康状態」とは関係しない。
条件2
検証
徴兵くじの対象者(ほとんどが19歳、20歳の男性)に対して無作為に当選が割り当てられるというくじのデザインから、「徴兵くじの当選」が「従軍前の賃金」とは関係をもたないことは明白である。
「自宅から最寄りの大規模病院までの距離」は、過去の研究においても効果的な操作変数として用いられている。

過去の研究で有効性が確かめられている。「被験者の子供のBMI」が「本人の健康状態」に影響を与えているとは考えにくい。


過去の文献における操作変数法(IV法)の使用例(続き)
事例
Newhouse and McClellan (1998)[7]
Stukel et al. (2007)[8]
Cawley and Meyerhoefer (2010)[9]
目的
心筋梗塞患者に対するカテーテル挿入とその後の健康上のアウトカムとの関係を調べたい。
心筋梗塞患者に対するカテーテル挿入とその後の生存率との関係を調べたい。
肥満が年間医療費に与える影響を調べたい。
アウトカム
健康上のアウトカム指標
心筋梗塞患者の生存率
アメリカの年間医療費
介入
x
「心筋梗塞後の心臓カテーテル挿入」
「心筋梗塞後の心臓カテーテル挿入」
BMI
考えられる交絡因子
u
「患者の重症度」(心筋梗塞の重症度に伴い、心臓カテーテル挿入の適用が選択される)
「患者の重症度」(心筋梗塞の重症度に伴い、心臓カテーテル挿入の適用が選択される)
l  「患者の経済状況」(肥満になる人は経済的に貧しい人が多く、かつそのような患者は治療を受けない傾向にある)
l  「肥満以外の疾病の有無」(もともと疾病を抱えていて医療費が高い人が肥満になる傾向にある)
介入に対する操作変数
z
「心筋梗塞患者の自宅から最も近い病院(心臓カテーテルの設備を備えている)までの距離」
「当該患者の居住地域における心臓カテーテル挿入実施率」
「生物学的血縁者(biological relatives)の体重」
条件1
「心筋梗塞患者の自宅から最も近い病院(心臓カテーテルの設備を備えている)までの距離」は、「当該患者の心臓カテーテル挿入の有無」と関係している。
「ある患者の居住地域における心臓カテーテル挿入実施率」は、「当該患者の心臓カテーテル挿入の有無」と関係している。
「患者の生物学的血縁者の体重」は、「患者本人の体重」と関係している。
条件2
「心筋梗塞患者の自宅から最も近い病院までの距離」は、「患者の重症度」とは関係がない。
「ある患者の居住地域における心臓カテーテル挿入実施率」は、「患者の重症度」とは関係がない。
「患者の生物学的血縁者の体重」は、「患者の経済状況」や「患者の肥満以外の疾病の有無」とは関係がない。
条件2
検証
心筋梗塞に罹りやすい患者は心臓カテーテル設備の整った病院の近くに引っ越すといった傾向がない限り、条件2は正しいとしている。
過去の研究により、急性心筋梗塞の重症度は、患者の居住地域に関わらず類似の値になっていることが報告されている。
患者の生物学的血縁者が同一世帯に育った場合、患者と当該生物学的血縁者の体重は相関し、疾病の有無も相関するという意見もあるが、行動生物学の研究では、同一世帯で育つことの(体重への)影響は小さいことが報告されている。




[1] Sussman, J. B. and Hayward, R. A. (2010) An IV for the RCT: using instrumental variables to adjust for treatment contamination in randomised controlled trials, Brit. Med. J., 340: c2073, doi: 10.1136/bmj.c2073.
[2] Wooldridge (2009) Introductory Econometrics: A Modern Approach, Fourth Edition, South-Western CENGAGE LearningよりChapter 15: Instrumental Variables Estimation and Two Stage Least Squares, p.506-545
[3] 直感的には、[能力] が高ければ高いほど[教育年数] が長くなる、すなわち正の相関関係が存在すると予想できるでしょう。この場合、上の式ではβ1の推定量は実際の年収に対する教育年数の効果よりも過大に見積もられることになります。
[4] Angrist, J. D. (1990) Lifetime earnings and the Vietnam era draft lottery: Evidence from Security Administrative Records, Am. Econ. Rev., 80:313-336.
[5] Kahn, J.M., Ten Have, T. R., and Iwashyna, T. J. (2009) The relationship between hospital volume and mortality in mechanical ventilation: An instrumental variable analysis, Health Serv. Res., 44(3):862-879.
[6] Bjørngaard, J. H. et al. (2015) Association of Body Mass Index with depression, anxiety and suicideAn instrumental variable analysis of the HUNT Study, PLoS One, 10(7):e0131708, doi:10.1371/journal.pone.0131708.
[7] Newhouse, J. and McClellan, M. (1998) Econometrics in outcomes research: The use of instrumental variables, Ann. Rev. Pub. Health, 19:17-34.
[8] Stukel, T.A. et al. (2007) Analysis of observational studies in the presence of treatment selection bias: effects of invasive cardiac management on AMI survival using propensity score and instrumental variable methods, J. Amer. Med. Assoc. 297:278-285.
[9] Cawley, J. and Meyerhoefer, C. (2010) The medical care costs of obesity: An instrumental variables approach, NBER Working paper series, Working paper 16467, http://www.nber.org/paper/w16467.pdf