
前回投稿で、MLモデリング設計時のベースライン定義の重要さを指摘しました。ベースライン設定はシンプルに言えば、そのタスクを普通に勉強していれば誰だって選択できる基本的な手法を選ぶことです。ただ実務においては「誰だって選択するもの」のないケースに遭遇することもしばしばです。そのような場合、一番始めは最もナイーブなベースラインを設定し、プロジェクトの進行と共に増加する知識に伴い適宜アップデートすれば良いでしょう。ベースラインが上がるたびに自分たちの得たものの大きさを実感できると思います。
さて以下に最もナイーブなベースライン計算に役立つであろうライブラリを紹介します。個人的には特に時系列系の予測はモデルへの期待値が過大評価されている(筋の良い時系列を当ててそこだけ宣伝している)と感じているので、ベースラインを多様に定義しておくことが大切だと思います。
- 分類・回帰タスクでのランダム予測:
- scikit-learnのDummy estimators
- 時系列予測でのナイーブ予測:
- sktimeのNaiveForecasterとそのtutorial
- 指数平滑や移動平均などエクセルでできることをベースラインにするなど
- 推奨タスク:
- ランダムベース
- 人気ベース
- 協調フィルタリング
- Auto系
- auto-sklearn:sklearn派生プロジェクトのAutoML
- TPOT:老舗なAutoML
- FLAML:マイクロソフト開発のAutoML
- MLJAR:Automated Machine Learning for Humans
- AutoKeras:テキサスA&M大学のDATAラボが開発のAutoMLシステム
- 等々