前回の記事では特徴選択時の特徴量数の上限について取り上げましたが、今回は変数重要度のグラフのパレート感に感じる美しさと違和感について取り上げます。以下は前回も掲載した変数重要度の単なる棒グラフです。よく見るこれを標準パターンとしましょう。こういうパターンの時は(精度が出る、出ないの予想どちらにしても)大体予想通りの着地をしていると思います。

次に以下のような一本足パターン。強い特徴量とその他特徴量の差が大きいケースです。正直嫌ですよね。強い特徴量のPDP(Partial Dependence Plot)を見て、ドメイン固有知識と照らしその振る舞いが矛盾していなかったとしても、特定変数で出力が左右されるというのはピーキーの元凶です。このパターンでは、とても難しいですが別の新しい概念に根差す特徴量を用意できないか検討し出力挙動を分散したいところです。稀にですが、特に初学者の場合、この第一重要特徴量が自明変数(目的変数の代替的な変数で本来説明変数には使えない未来情報がリークしているだけの変数)というオチもあるので気を付けましょう。

最後に以下のようなどんぐりパターン。この形状の場合はあまり精度が出ていないと思います。また弱い特徴量同士の比率や差分をいくらとってもそれが強い特徴量になるのは稀ですから、プログラミング能力に幅を利かせ思考を停止させ特徴量を量産しても厳しいでしょう。またこのような場合にハイパラチューニングをしても、出オチ(初期値に勝てない)となることも多いです。なのでこのような場合には、解析対象のそもそものメカニズムと向き合い、今取り扱っている特徴量をゼロベースで再考する作戦会議を早くした方が良いです。

今回紹介した内容はあくまで標準的で感覚的なものです。「今回特徴量だと一本足になりそうだ」と予想したのにそれと異なる結果になれば、その違和感に対処した方がいいと思います。自律したデータサイエンティストが最後に頼れるのは自分の直観です。皆さんは自分の「直観」を信じてモデリングできていますか。

メルマガ登録のご案内

CI.ではデータ&ディシジョン科学の観点からの情報発信を行っています。
よろしければ、メルマガ登録をお願い致します。

コメントは利用できません。