コンテンツ制作プロジェクトについて紹介させて頂きます。現在公開中のものはExternla Validaiton・Algorithmic Bias・CIオンラインプラスの3つです。以下該当プロジェクト名をクリックしてもらうと表示を切り替えられます。
外部検証は訓練データとは異なるデータ特性のサンプルでモデルを検証すること。交差検証のように単にデータを分割しながら検証するのは内部検証に属する。これらの中間に時間的検証は位置するが、これを外部検証に含めるとするテキストもあるようだ。いずれにせよ重要なのは内部検証の訓練データで精度が高く、内部検証や時間的検証の評価データでその精度がほぼ維持されたとしても、外部検証の検証データで精度が落ちることは珍しくはないし、少なくともプロジェクト管理者はそれを想定外と言ってはいけない。また発注者もアルゴリズム開発は丸投げしてもよいだろうが、開発されたモデルの評価は決して丸投げしないようにすべきだろう。
新しい言葉を使うと説明もしやすくなる。これまで時間的検証という言葉を用いずに図解してきた。要はバックテストでしょということ位はさすがにわかっているけれど、この言葉を非データサイエンス系の方にパッと使ってもほとんど何も伝わらないことも知っているので、習慣的に分析者同士でしかバックテストという言葉は使わなくなっていた。もちろん時間的検証もこの用語単体では何も伝わらないだろうが、内部検証や外部検証とセットで伝えればオープンマインドな方なら問題なく伝わりそうな気がしてくる。ちなみにキャプチャ画像のような設計(Internla-Temporal設計)で安易に仕事を進めた結果、過去にとても痛い経験をしたことがある(この設計が間違っているという訳ではない)。私は論文芸人ではないので、現場での学びと合わせて情報発信をしたいものだと改めて思った1日だった。
外部評価の実施に当たっては実証したい一般化可能性の目的に照らし、訓練データとは独立し異なる特性のデータを別途準備すれば良い。言葉にするとシンプルだがその実施は難しそうだ(臨床系論文で2019年時点7%)。まず「目的に照らし」の部分。ここは分析視点に主体性がないと全く見当が付かないだろう。また独立していたはずのデータに合わせモデルをチューニングしてしまった時点で、それはもはや外部検証とは言えず実施体制にも気を使う。何より「とにかく”精度”が良いこと」や「実績作り」に傾倒したプロジェクトの場合、敢えて厳しい科学的評価を時間とお金をかけて実施できるだろうか。絶望的だ。そんなことを考えながら、それでも30人くらいの分析官を組織化できれば、このような評価も各企業内で自然と進むだろうから、まずは規模を目指し質については規模というパワーを持ってから推進すれば良いのだと自己説得に至った。
転移学習は外部検証に相当するのだろうかと考える。ファインチューニング実施の際、一般化可能性を検証しようとするマインドを持ったことがあっただろうか。それよりも目標ドメインに合わせ事前学習済みモデルをチューニングし、当該ドメインで時間的検証して問題なければ満足していなかっただろうか。この場合、目標ドメインへ一般化したというよりも目標ドメインに特化させたと言うべきだろう。
一方、GPT-3のzero-shot学習を想像すると、事前学習済みモデルへの一般化要求が厳しくなっていて、これは外部検証相当と言えるのではないかと感じてくる。人工知能やデータ科学がもつモデリング思想がモデル評価の在り方にも影響していると考えると少し腹落ちした。そこで理論(因果仮説)を中心とした伝統的科学的モデリング観と学習やデータを軸としたモデリング観の違いについて取り上げたいと思った。
かなり前から様々な企業で数百のMLモデルを運用しているというプレスはあった。今で言うMLOpsだ。もちろん苦労も多いだろうし、決してツールでポンでボケ〜と運用している訳でもない。ビジネスプロセスの合理化により生じる新たな脆弱性も認識し十分に備えてきたのだと思う。しかしである。COVID-19により従前使えていた多くのモデルが一時的だろうが使えなくなった。結果、それまであまり注目されてこなかったデータドリフトやセンサーデータに閉じ気味の印象のあった適応的機械学習が広く注目されるようになった。この技術トレンドも時間的検証、外部検証を理解すると必然だったように思えるから不思議た。外部検証と現在機械学習領域で注目のデータドリフト。これら用語を本コンテンツのタイトルとして使いたいと思った。
現在並行し取り組み中の「Algorithmic Bias」プロジェクト。そこで参照のTobias Bare著「AIの心理学」の23章掲載、モデル開発の十戒から以下を紹介したい。
モデルは常に新たなる未使用のデータにて徹底検証せよ。新たなる未使用のデータにてモデルを検証せざる者、データサイエンティストにあらず、悪魔がカップに配した茶葉を読む占い師にすぎぬなり
時間的検証でデータドリフトとモデル性能を監視し、モデル用途が一般化を伴う場合は必ず外部検証を行え。そんな風に読み替えられそうですね。データサイエンスをやって苦々しい経験を積むほど、モデル評価への心構えはこんな感じに収束するのだと思いました。
後半のテーマ「データドリフト」について資料化を進める。モデル性能に影響を与える訓練時と推論時のデータ特性の予期せぬ変化がデータドリフトだ。どれだけモデルの評価を過去データで積み重ねても、MLモデルの性能監視が要求されるのはこの為だ。より一般的に言えば、制御できない環境からサンプリングされたデータを用い、帰納的にモデルパラメータを推定している以上、どれだけ大規模データで学習しようと環境が変化したら使えなくなるのは当然のように感じられるだろう。しかしこの変化を察知し堅牢なモデルへと修正する方法論となるとそれは難しい技術課題となる。データドリフトの厄介な点は、❶概念理解までの簡単さに比してその解決が難しいこと、❷IT全般に通じるが保守運用に相当する性能監視は予算・要員・時間の確保への理解を得にくいこともありそうだ。組織的対応ができる企業は少ないだろう。
弊社オンラインサービスの法人会員向けにレポートを公開できました。続けて解説動画を制作し公開したいと思います。会員以外(個人含む)の方々にもOneDayパスポートのような形で、本レポート含む各種コンテンツの閲覧機会をご提供できればと考えていますので、よろしければメルマガ登録しておいていただけると幸いです。さてキャプチャ画像は当該レポートサマリページのものです。Zillowの事例などからもわかる通り、(昔からですが)モデル活用リスクは無視できるものではありません。本コンテンツを通し、外部評価やデータドリフトの概念を把握することで、皆さまの組織の組織的対応力強化の一助となればこれまた幸いです。
弊社オンラインサービスの会員向けに動画#1を公開。コンテンツ全体構成は下記通りで本動画は❶部分を解説。レポート公開時にも記しましたが、非会員の方向けにもレポートや動画を閲覧できる機会を設けられればと考えていますので、宜しければメルマガへのご登録をお願いします。
❶モデル評価の3類型
②モデル評価の設計例
③モデル評価のまとめ
④データドリフトとは?
⑤全体のまとめ
話は少しずれますが、動画を作っていて地味にですがビジネスイップス的なものを感じました。普段の仕事は全く問題ないのですが、導入部分の数枚が何度やっても撮れない。話していて何度も止まってしまいました。こういう時期も乗り越えていき、より良いコンテンツを提供できるよう努めます。動画は1.25倍速推奨です。
法人会員向けに動画#2を公開。本動画は以下❷部分を解説しました。特に外部検証はモデルの説得力を高めるのに役立つ点を指摘し、日々の業務においては当該検証への期待値マネージメントの必要性を指摘しました。
①モデル評価の3類型
❷モデル評価の設計例
③モデル評価のまとめ
④データドリフトとは?
⑤全体のまとめ
現在、個人の方でもご利用頂けるCIオンラインプラスの無料体験チケットと本レポートが弊社オンラインストアから入手できますので、宜しければお立ち寄り下さい。