
前回投稿で因果連鎖を構成する3つの経路として因果経路(causal path)、分岐経路(causal fork)、そして合流経路(Inverted fork)を紹介しました。また前回コラムでは、データサイエンス部門が扱う4つのビジネスクエスチョンを紹介しました。本稿ではこれら2つの投稿を結び付けたいと思います。前回紹介のデータサイエンス部門が扱う4つのビジネスクエスチョンは以下でした。
- ビジネスクエスチョン❶:そもそも現状ってどうなってるの?(現状把握)
- ビジネスクエスチョン❷:これって上手くいってるの?(効果測定)
- ビジネスクエスチョン❸:なんでこれは上手くいってる(いない)の?(因果解明)
- ビジネスクエスチョン❹:君ならどうする?(予測など人間思考の要素タスクのモデル化)
さてBQ2で特に意識すべき点として取り上げられるのが下図左側の通り分岐経路です。一般的にはここに登場する変数iが処置変数T(treatment variable)、変数mが交絡因子WやX、そして変数jが成果変数Yとして表記されることが多いです。下図右側は、過去購買力が高い人をキャンペーン対象に、低い人は対象外にした場合をイメージした因果連鎖図例です。
私たちはBQ2の要望からキャンペーン効果を測定したいのですが、そもそもにキャンペーン対象者の購買力が高いのであれば、キャンペーン効果としてキャンペーン対象者と非対象者の購入率を単純に比較できません。この比較できない元凶こそが交絡因子ということで、交絡因子の影響を受けずに比較するための実験を設計するか、そうでない場合は解析の中で比較のための工夫の余地があるかを判断し、可能であれば解析手法で対処することになります。ここから先はRCTやA/Bテスト、傾向スコアマッチングなどのメソドロジーの話になるので、本稿ではここまでとします。
次にBQ3ですが、一般に因果関係のメカニズムを解明するということは、処置変数と成果変数の間にいくつかの変数を介在させ因果連鎖を形成するということです。具体的には下図などを参考にして下さい。
処置変数(ライムを食べたか否か)と成果変数(壊血病になったか否か)の間に介在する変数(ビタミンCを摂取状況)のことを媒介因子などと呼びます。このようにBQ3では媒介因子候補(仮説)を生成するドメイン知識と、この媒介経路が統計的に意味のある経路であることを立証する実験力や解析力が問わます。以上まとめると、本稿タイトルの通りBQ2では交絡因子の調整が、そしてBQ3では媒介因子の特定が鍵であると言えるのです。
さて最後に解析的なことを少し補足します。BQ2を主目的とする場合、媒介因子は解析の外に置きます(OLSでモデル推定する際に説明変数には含めません)。具体的な交絡特定法に興味ある方は以下の動画をご覧ください。
BQ3を主目的とする場合は媒介因子を含め、直接効果と間接効果を推定しようとする媒介分析が一つの選択肢となります。媒介分析については、情報が多い訳ではありませんが、素晴らしい日本語情報も増えつつあるので是非ググってみてください。本稿では参考として以下Paperを紹介し締めたいと思います。