はじめに
今月上旬、『10億円かけた虐待判定AI、こども家庭庁が導入見送り…ミス6割で「実用化困難」』とのニュースがメディアを通じて報じられた。読売新聞オンラインの記事によると、約5,000件の虐待記録を学習したAIに過去の虐待事例100件のリスク判定を検証させたところ、62件で「精度が著しく低い」などの問題が生じたという。
このAIは、傷の有無や部位、保護者の態度など91項目を入力すると、虐待可能性を0〜100のスコアで示す仕組みだった。しかし、「母に半殺し以上のことをされた」「服をつかまれて床に頭を叩きつけられた」といった重大な訴えがあったにもかかわらず、AIが示したスコアが「2〜3」にとどまる例もあった。これらの情報から、現代的なAIモデル評価について考察したいと思う。
伝統的機械学習と最新LLM
記事内容から判断すると、このAIは伝統的な機械学習向けに設計されたように見える。91項目の特徴量が明確に定義され、教師あり学習として一時保護の有無(分類問題)または必要性の程度(回帰問題)を予測する設計だ。
これ自体は問題ではないが、現在のAI技術の主流は大規模言語モデル(LLM)へと移行している。このプロジェクトが企画された当初は、おそらく今日のような高度な推論能力を持つLLMが広く利用可能ではなかったと想像される。現在のAI技術は極めて短期間で進化するため、計画段階での前提条件が開発段階で古くなってしまう可能性には注意が求められる。
損失関数の探求余地
例えば、「服をつかまれて床に頭を叩きつけられた」といった重大事例が訓練データにわずかしか含まれていない場合、単純な分類評価指標(適合率や再現率など)では、その重大性の違いを反映できない。このような重大性を正確に評価するには、回帰タスクとして設計し、数値的な重み付けを導入することも一案である。しかし実際には、5,000件という大量のデータすべてに1点単位で精緻な重みを設定することは現実的ではなく、分類タスクのままで評価指標に重大性を適切に反映させるような工夫が求めれられるだろう。こうした工夫がなければ、AIの性能向上は本質的な限界に直面する。
軽視されがちな「測定」行為
91項目の特徴量における測定の安定性にも懸念が持たれる。例えば「保護者の態度」のような項目は、評価者間・評価者内での一致性が低い可能性がある。さらに訓練に使用された5,000件の一時保護判断(正解ラベル)もまた、評価者間・評価者内のばらつきが大きい可能性がある。最終評価に用意された100件の事例は複数の専門家が合意した「ゴールドスタンダード」であろうが、訓練データの正解ラベルが実際の現場担当者の判断に依存する場合、そのばらつき自体がAI性能の上限となってしまう。
LLMの評価法
ここまでは、開発されたAIはおそらく伝統的機械学習だろうという前提で書いてきた。少し目線を変え、最新のLLM評価(リーダーボードのスコア)がどのように算定されているのかを紹介する。
最新のLLMの総合評価指標であるアリナースコアでは、モデルの出力を盲検化して並べ、人間によるペア比較評価を大量に収集する。評価者を広く集め、多様性を担保することで特定評価者の偏りを最小限に抑える。その後、Bradley-Terryモデルという統計モデルを用いて相対的な評価スコアを算出する。この方法により、評価者の偏りを最小限に抑え、統計モデルを通じて安定した相対評価スコアを導くことが可能になる。
こども家庭庁のモデル評価再考
一時保護判断の評価は、複数のAIモデルに加え経験年数の異なる専門家もエントリーさせ、多数の評価者が盲検比較評価する方法が良かったように思われる。例えば、新人職員、中堅職員、ベテラン職員、そして複数のAIモデルの判断を同一条件で評価する。
ここでのポイントは二つ。一つは盲検化。これによりAI回答への評価が厳しくなるといった私たちの認知的傾向に対抗する。もう一つは専門家との公平な比較。ゴールドスタンダードに限りなくAIを近づけるという評価思想はAIに完璧を求める傾向を強化する。そうではなく、5年目の専門家と同等になれば現場導入を検討するといった「公平な比較」に基づく導入判断基準を設けるのである。
このような方法によって、AIが「何年目の職員の水準にあるのか」を明確にし、実用化可能な水準を設定できる。さらに新技術が登場した際にも、柔軟にモデルを比較導入しやすくなる。また、国家医師試験のように禁忌問題を用意することで、致命的な判断エラーに備えることも役立つだろう。
最後に
今回の事例から学べる重要な教訓は、AIモデルの性能評価は単なる精度指標に留めず、「重大な誤分類の重み付け」「測定データの安定性」「評価者間のばらつき」までを考慮した包括的なものでなければならないということである。また、AI技術は急速に進化しており、開発計画そのものも柔軟性を持ち、最新技術の登場に適応できるよう常に余地を残すことが望ましい。現実的で柔軟な評価計画が、投資効果を高めるカギとなる。
Comment