Blog

この記事の内容

この記事は、認知バイアス入門(ソシム)のP229に掲載の図7.1.8(相関関係・相関係数・因果関係の関係性)に関する補足記事です。ここで、特に焦点を当てたい点は「疑似相関という用語」で、これには異なる使われ方があることを紹介します。

認知バイアス本における疑似相関の位置付け

まず、以下の図1をご覧ください。認知バイアス入門の7章で紹介の通り、相関関係(X,Y)が因果関係(X→Y)と認められるには、以下の4つの基準を満たす必要があります。この図はこの4基準の位置付けを、新たに図に落とし込んだものです。

因果関係の4基準
❶関連性:原因候補Xと結果候補Yに相関関係があること
❷妥当性:相関関係が科学的知識に照らして妥当であること
❸時間性:原因候補Xが結果候補Yよりも先んじて起きていること
❹非偽性:相関関係が疑似相関ではないこと

認知バイアス本では、原因と結果の両方に影響を与える第3の因子=交絡因子を紹介し、これが疑似相関を生じさせることを解説しました。この第3の因子には、交絡因子の他にも合流点と呼ばれる因子の存在が知られ、これは合流点バイアス(選択バイアスの一種)を生み出し、疑似相関の原因になることが知られています(合流点や合流点バイアスについては、また別の記事で補足解説する予定です。)

また認知バイアス本では解説できませんでしたが、「全くの偶然」の結果として見せかけの相関関係が観察されることがあり、これは偶然の相関と呼ばれます。例えば、米国最北東部に位置する「メイン州の離婚率」と「マーガリンの消費量」は強い相関関係にありますが、これは因果ではなく、単なる偶然の結果と考えるのが妥当でしょう。

相関と因果が一致しないケース

ここまでの内容をまとめると、相関と因果が一致しないケースには、逆因果、疑似相関、偶然の相関の3つのケースがあると理解することができ、認知バイアス本はこの観点から解説が行われています。そのため、認知バイアス本のP229に掲載の図7.1.8では「疑似相関でも因果関係でもない相関関係の領域」が残して描かれています。

ちなみに、認知バイアス本と同様の観点から疑似相関という用語を使っている書籍やコンテンツは以下の通りです。

Rによる実証分析 (第2版): 回帰分析から因果分析へ(オーム社)
 →相関と因果の違いを「疑似相関・偶然の相関・同時性(≒逆因果)」に分けて解説
熊本大学数理科学総合教育センターの統計教育コンテンツ
 →相関と因果の違いを「逆因果・疑似相関・偶然の相関」に分けて解説
 →http://msec.kumamoto-u.ac.jp/problem/pdf/ds/03/ans/ex_ds_3_ans.pdf

疑似相関という用語のその他の使われ方

ところで、さまざまな書籍や論文を確認していると、上述の「疑似相関」という用語の使われ方とは異なる解説に度々遭遇します。例えば「統計学入門(ソシム)」では、疑似相関とは「因果関係ではないけれど相関関係がある場合」のものと解説されています(P266)

以下は、このパターンの解説の背景にある疑似相関の位置付けを図解したものです。

先の図1のように、Xが原因でYが結果といった変数の役割を与えず、どちらの変数も同列に扱っていることに気が付きます。変数XY間に相関関係があっても「因果関係でなければ、それは疑似相関である」というとてもシンプルな考え方で、例えばこの解説は「統計的因果推論 -モデル・推論・推測- Judea Pearl (著), 黒木 学 (翻訳)」(共立出版)のP350においても確認することができます。

以上のように、疑似相関という用語は厳密に定義されたものではなく、分析者がこの用語を使う文脈や目的によって変化する、曖昧性が含間れたものだとわかります。三重大学の奥村晴彦名誉教授は、疑似相関の解説ページの最後を、以下のような言葉で結んでいます。

以上、いろいろな例を挙げましたが、疑似相関の定義は必ずしもはっきりしていないところがあります(そもそも因果関係がよくわからないケースもあります)。あまりこの言葉にこだわらないようにするのがいいかもしれません。

https://okumuralab.org/~okumura/stat/spuriouscorrelation.html

最後に、米国心理学会(APA)による疑似相関の説明を以下に紹介し、本記事を終えたいと思います。この記事で紹介した通り、疑似相関という言葉には曖昧性が含まれますが、一貫しているのは第3の因子(交絡因子や合流点)が疑似相関の原因である点です。このような解説事例を数多く知ることで、データ分析時の注意力を高めることができるでしょう。

APAによる疑似相関の説明例:火災の初期規模が交絡因子となっているケース
ある2つの変数間の関係が、1つまたは複数の他の変数との共通関係によって関連付けられるが、互いに因果関係を持たない状況。 例えばある火災の被害総額は、現場にいる消防士の数が増えるにつれて増加するデータがあるとする。 これから「消防士を減らせば被害が減る」とは推論できない。 なぜなら火災の初期規模という第3の因子が、被害額と消防士の数の両方に影響を与えているからである。

今回の記事は以上です。最後までお読みくださり、誠にありがとうございました。

コメントは利用できません。