今回は表題の通りデータサイエンスの基本概念について紹介します。本稿では各経路の定義と独立性までを取り上げますが、これは前回投稿で紹介したデータサイエンス部門が扱うビジネスクエスチョン2番とビジネスクエスチョン3番に適切に取り組むために欠かせない知識です。きちんとした情報で学びたい方は以下などを参照下さい。

それでは本題です。因果経路(causal path)、分岐経路(causal fork)、合流経路(Inverted fork)とその独立性に関してですが、まず各経路の定義は以下の因果連鎖図の通りです。

さてこの3つの経路の中で一つだけ独立性について異なる性質を持った経路があります。結論から言うとそれは合流経路です。合流経路は、経路中間にある因子(記号m:中間にある因子mediatorの略)の値が固定(調整)された時にはその他因子は依存し合いますが、因子mが固定されなければその他因子は独立します。これを整理すると以下となります。

  • 因子mを固定すると、その他因子が依存し合う:条件付き依存(conditional dependence)
  • 因子mを固定しないとその他因子が独立である:周辺独立(marginal independence)

単純な例として掛け算を考えます。掛け算の結果をmとした場合、m=10と固定し、かつ一方を5とすれば、残りの因子は自動的に決定されます。このように合流経路は合流点mの値が固定されると残りの値が依存し合う訳です。これを条件付き依存(conditional dependence)と言います。mが固定されなければ、残りの因子は別々に生成されそれがデータとして観察されるだけですから独立しています。

他の二つの経路(因果経路と分岐経路)については、因子mと残りの二つの因子の関係が合流経路とは逆転します。上記同様に記すと以下のようになります。具体例について委ねますが、独立性において合流経路だけが他の経路と異なるということは覚えておきましょう。

  • 因子mを固定すると、その他因子は独立になる:条件付き独立(conditional independence)
  • 因子mを固定しないと、その他因子は依存する:周辺依存(marginal dependence)

上記をまとめると以下となります。因果律を構成する3つの経路とこの独立性について理解できていると、前回投稿で紹介したビジネスクエスチョン2の解析時に必要な交絡因子の定義に役立ちます。この点についてはまた別の回でも取り上げたいと思います。今回は以上です。

メルマガ登録のご案内

CI.ではデータ&ディシジョン科学の観点からの情報発信を行っています。
よろしければ、メルマガ登録をお願い致します。

コメントは利用できません。