回帰係数の推定は、通常、解析的に幅(分散)をもって推定されますが、ある変数の回帰係数の分散はその他説明変数との関係性で変化します。この回帰係数の分散が大きいと、例えば、回帰係数が1.5だと信じてモデルを解釈していたのに、実は統計的には-2.5から+2.0までの値を取り得るんですといった状況が生じ得てしまい、それでは解釈の前提が崩れるじゃないか!となって困ってしまうのです。

特に先述のように、推定された係数の信頼区間(confidence interval)がゼロを跨いでいると解釈的には致命的です。そのため分析者は信頼区間がゼロを跨いでいるか否か(つまり回帰係数が危険率p%で有意か否か)を、ズボンのチャックを閉めてから外出するとか、鼻毛をカットしてから外出するのと同じように、解析の基本動作として行います。

単回帰の場合、説明変数($x_1$)は一つですからその係数の分散が他の変数の影響を受けることは(当然)ありません。問題は説明変数($x_2$)が追加された重回帰分析です。ここで変数$x_1$と$x_2$の相関係数が$r_{12}$とすると、重回帰分析の結果推定される変数$x_1$に対する回帰係数(偏回帰係数)の分散は単回帰分析時の係数の分散と比べ$1/(1-r_{12}^2) $倍に拡大されることが知られています。これを分散拡大係数(Variance Inflation Factor:VIF)と呼び、分母の$1-r_{12}^2$をトレランスと言います。

変数が3つ以上だと$x_1$のVIFは$1/(1-R_{1|その他説明変数}^2) $、トレランスは$(1-R_{1|その他説明変数}^2)$に変わります。相関行列だけを見てもVIFは厳密にはわからないということですね。

さて簡単のため説明変数を2つとして話を続けると、上記の意味することは、もし説明変数同士の相関係数$r_{12}$が限りなく1.0に近けばトレランスがゼロに近づき、VIFは無限に発散するということです。このようにトレランスがゼロに近づくとき多重共線性(multi-collinearity:略してマルチコ)があると言います。

重回帰ではこのマルチコが注意事項として広く知られています。マルチコへの簡便な対処法は、❶説明変数間の相関係数を全て調べ、例えば、0.70以上の組み合わせがあれば、どちらかの変数を重回帰から除外する、❷変数クラスタリングを行いそれを以って変数の一次元性を表現したと考え、変数クラスタの中から代表的な変数を選択する、❸機械学習モデリングで使われる特徴量選択クラスで絞り込むなどが考えられます。

慣習的には、説明変数のトレランスが0.5以上(分散拡大係数は2.0以下)であれば、多重共線性がないとして議論を先に進めやすく、逆に0.1以下(分散拡大係数が10以上)の場合は、その重回帰モデルを使用することを避けることが推奨されます。このような多変量解析的知識は、例えば、データ科学のメソドロジーで紹介の動画:非言語的メカニズムとZOOM疲れで紹介した元論文のPDF4ページ目Resultsの以下のような記述からも確認することができます。

The variance inflation factor (VIF) for the predictors is below 2.00, which suggests the absence of multicollinearity.

メルマガ登録のご案内

CI.ではデータ&ディシジョン科学の観点からの情報発信を行っています。
よろしければ、メルマガ登録をお願い致します。

コメントは利用できません。