
前回投稿で直接効果と間接効果の古典的推定モデル(Baron and Kemy, 1986)とその限界を指摘しました。具体的には媒介因子$M$と成果変数$Y$の間に未観測の交絡因子$U$が存在すると、推定された回帰係数$\theta_1$にバイアスが生じるというものです。
なぜなら上図のように合流点$M$が回帰モデルに組み込まれ条件付き依存、つまり因子$A$と$U$の間にパスが開き、因子$A$を変化させたとき当該パスを通じて成果変数$Y$が影響を受けますが、その影響を因子$U$でブロックできないまま係数$\theta_1$を推定するからです。
解釈のためにやっている重回帰分析としては理想的ではないですよね。他の説明変数を固定するからこその係数解釈なのに、因子$U$を通じた漏れを固定できていないのですから。さて直接効果と間接効果の推定のためには、媒介因子と成果変数の間に未観測の交絡因子が存在しないことを含め計4つの条件があります。以下の図をご覧下さい。
推定のための4条件を上図に照らし記すと以下になります。実務では未観測の交絡因子が存在しないと言い切るのは難しいでしょうから、主要な交絡因子についてデータを収集し、かつ因子$A$から$C3$へのパスが存在しないと考えられればモデリングに進んでよいでしょう。
- 処置変数$A$と媒介因子$M$の間に未観測の交絡因子が存在しない($C1$を観測する)
- 処置変数$A$と成果変数$Y$の間に未観測の交絡因子が存在しない($C2$を観測する)
- 媒介因子$M$と成果変数$Y$の間に未観測の交絡因子が存在しない($C3$を観測する)
- 媒介因子$M$と成果変数$Y$の交絡因子に処置変数が影響しない($A$から$C3$の矢印が存在しない)
この一呼吸の有無が外からは見えにくいために分析力とプログラミング力の違いが非専門家に伝わらないことがあります。特にデータサイエンス部門をマネージメントする立場においてこれは致命的盲点になり得ますので留意しましょう。本稿の内容を理解する必要はなくこの種のことを理解している人を見分けられればよいのです。
本稿では因果メカニズム解明のためのモデリング4条件をまずは形式的に紹介しました。次回以降で具体的な解析事例などを紹介したいと思います。また本稿は以下を参考にしていますので、きちんと学習されたい方はこちらなどをご参照下さい。