進行中の仕事

現在進行中のコンテンツ制作プロジェクトについて紹介させて頂きます。現在公開しているものは「Externla Validaiton」と「Algorithmic Bias」の二つです。以下、該当プロジェクト名をクリックしてもらうと表示を切り替えられます。


External Validation

2021-11-27

WHAT’S EXTERNAL VALIDATION?

WHAT’S EXTERNAL VALIDATION?
臨床研究領域のモデル評価に関するペーパーをふと眺める。これまでExternal validationという用語は知らなかったので、きちんと確認したくコンテンツ作成を開始することにした。評価データ特性の観点から整理するとモデルの評価は❶内部検証(Internal validation)、❷時間的検証(Temporal validation)、❸外部検証(External validation)に類型化されるという。ちなみに臨床研究領域でも外部検証まで実施される研究はとても少ないようだ。新しい言葉を持てば顧客との意思疎通も助かるだろうし、少し時間をかけて機械学習領域の技術トレンドなども考察してみたいと思った。
2021-12-03

外部評価について

外部評価について

外部検証は訓練データとは異なるデータ特性のサンプルでモデルを検証すること。交差検証のように単にデータを分割しながら検証するのは内部検証に属する。これらの中間に時間的検証は位置するが、これを外部検証に含めるとするテキストもあるようだ。いずれにせよ重要なのは内部検証の訓練データで精度が高く、内部検証や時間的検証の評価データでその精度がほぼ維持されたとしても、外部検証の検証データで精度が落ちることは珍しくはないし、少なくともプロジェクト管理者はそれを想定外と言ってはいけない。また発注者もアルゴリズム開発は丸投げしてもよいだろうが、開発されたモデルの評価は決して丸投げしないようにすべきだろう。

2021-12-10

モデル評価の設計例

モデル評価の設計例

新しい言葉を使うと説明もしやすくなる。これまで時間的検証という言葉を用いずに図解してきた。要はバックテストでしょということ位はさすがにわかっているけれど、この言葉を非データサイエンス系の方にパッと使ってもほとんど何も伝わらないことも知っているので、習慣的に分析者同士でしかバックテストという言葉は使わなくなっていた。もちろん時間的検証もこの用語単体では何も伝わらないだろうが、内部検証や外部検証とセットで伝えればオープンマインドな方なら問題なく伝わりそうな気がしてくる。ちなみにキャプチャ画像のような設計(Internla-Temporal設計)で安易に仕事を進めた結果、過去にとても痛い経験をしたことがある(この設計が間違っているという訳ではない)。私は論文芸人ではないので、現場での学びと合わせて情報発信をしたいものだと改めて思った1日だった。

2021-12-13

外部評価の実施の難しさ

外部評価の実施の難しさ

外部評価の実施に当たっては実証したい一般化可能性の目的に照らし、訓練データとは独立し異なる特性のデータを別途準備すれば良い。言葉にするとシンプルだがその実施は難しそうだ(臨床系論文で2019年時点7%)。まず「目的に照らし」の部分。ここは分析視点に主体性がないと全く見当が付かないだろう。また独立していたはずのデータに合わせモデルをチューニングしてしまった時点で、それはもはや外部検証とは言えず実施体制にも気を使う。何より「とにかく”精度”が良いこと」や「実績作り」に傾倒したプロジェクトの場合、敢えて厳しい科学的評価を時間とお金をかけて実施できるだろうか。絶望的だ。そんなことを考えながら、それでも30人くらいの分析官を組織化できれば、このような評価も各企業内で自然と進むだろうから、まずは規模を目指し質については規模というパワーを持ってから推進すれば良いのだと自己説得に至った。

2021-12-14

機械学習的見地からの考察

機械学習的見地からの考察

転移学習は外部検証に相当するのだろうかと考える。ファインチューニング実施の際、一般化可能性を検証しようとするマインドを持ったことがあっただろうか。それよりも目標ドメインに合わせ事前学習済みモデルをチューニングし、当該ドメインで時間的検証して問題なければ満足していなかっただろうか。この場合、目標ドメインへ一般化したというよりも目標ドメインに特化させたと言うべきだろう。

一方、GPT-3のzero-shot学習を想像すると、事前学習済みモデルへの一般化要求が厳しくなっていて、これは外部検証相当と言えるのではないかと感じてくる。人工知能やデータ科学がもつモデリング思想がモデル評価の在り方にも影響していると考えると少し腹落ちした。そこで理論(因果仮説)を中心とした伝統的科学的モデリング観と学習やデータを軸としたモデリング観の違いについて取り上げたいと思った。

2021-12-15

COVID-19で露呈したモデリング課題

COVID-19で露呈したモデリング課題

かなり前から様々な企業で数百のMLモデルを運用しているというプレスはあった。今で言うMLOpsだ。もちろん苦労も多いだろうし、決してツールでポンでボケ〜と運用している訳でもない。ビジネスプロセスの合理化により生じる新たな脆弱性も認識し十分に備えてきたのだと思う。しかしである。COVID-19により従前使えていた多くのモデルが一時的だろうが使えなくなった。結果、それまであまり注目されてこなかったデータドリフトやセンサーデータに閉じ気味の印象のあった適応的機械学習が広く注目されるようになった。この技術トレンドも時間的検証、外部検証を理解すると必然だったように思えるから不思議た。外部検証と現在機械学習領域で注目のデータドリフト。これら用語を本コンテンツのタイトルとして使いたいと思った。

2021-12-16

モデル開発の十戒

現在並行し取り組み中の「Algorithmic Bias」プロジェクト。そこで参照のTobias Bare著「AIの心理学」の23章掲載、モデル開発の十戒から以下を紹介したい。

 

モデルは常に新たなる未使用のデータにて徹底検証せよ。新たなる未使用のデータにてモデルを検証せざる者、データサイエンティストにあらず、悪魔がカップに配した茶葉を読む占い師にすぎぬなり

時間的検証でデータドリフトとモデル性能を監視し、モデル用途が一般化を伴う場合は必ず外部検証を行え。そんな風に読み替えられそうですね。データサイエンスをやって苦々しい経験を積むほど、モデル評価への心構えはこんな感じに収束するのだと思いました。

2021-12-27

データドリフト

データドリフト

後半のテーマ「データドリフト」について資料化を進める。モデル性能に影響を与える訓練時と推論時のデータ特性の予期せぬ変化がデータドリフトだ。どれだけモデルの評価を過去データで積み重ねても、MLモデルの性能監視が要求されるのはこの為だ。より一般的に言えば、制御できない環境からサンプリングされたデータを用い、帰納的にモデルパラメータを推定している以上、どれだけ大規模データで学習しようと環境が変化したら使えなくなるのは当然のように感じられるだろう。しかしこの変化を察知し堅牢なモデルへと修正する方法論となるとそれは難しい技術課題となる。データドリフトの厄介な点は、❶概念理解までの簡単さに比してその解決が難しいこと、❷IT全般に通じるが保守運用に相当する性能監視は予算・要員・時間の確保への理解を得にくいこともありそうだ。組織的対応ができる企業は少ないだろう。

2022-01-07

レポートを公開しました

レポートを公開しました

弊社オンラインサービスの法人会員向けにレポートを公開できました。続けて解説動画を制作し公開したいと思います。会員以外(個人含む)の方々にもOneDayパスポートのような形で、本レポート含む各種コンテンツの閲覧機会をご提供できればと考えていますので、よろしければメルマガ登録しておいていただけると幸いです。さてキャプチャ画像は当該レポートサマリページのものです。Zillowの事例などからもわかる通り、(昔からですが)モデル活用リスクは無視できるものではありません。本コンテンツを通し、外部評価やデータドリフトの概念を把握することで、皆さまの組織の組織的対応力強化の一助となればこれまた幸いです。

PAGE TOP