
(最終更新日:2019年11月9日)
はじめに
今回は「計測と制御」(Vol.58(3), 2019年)の解説記事『砂に埋もれたモデルを探して:データ駆動による因果関係理解』を紹介します。非線形制御とロボティクスの専門家(大阪大学の石川将人先生)が現在どのように機械学習を捉えているのか理解したくピックアップしました。
理解と設計のサイクル

サイクル図の構成要素
さて、上図は元ペーパー掲載の図で『わかりたい』という科学的動機と『作りたい』という工学的設計の関係を表したものです。図の左側で科学的理解(わかりたい)を3つのステップに分けて表現しています。具体的には以下の3つです。
- 観測による『現象』の記録(データ化)
- 帰納による『法則』の抽出
- 推論による『原理』の構築
このステップは産総研の神嶌先生も『変わりゆく機械学習と変わらない機械学習』(シリーズ「人工知能と物理学」, 日本物理学会誌, 2019年)の考察で使用されている切り口で、元は機械学習研究者ドミンゴ(P.Domingos)の著書 The Master Algorithm(2015) のようです。古典力学の理論化までの流れを俯瞰し3つのステップが設けられたようです。前から順に、実験データを集めたブラーエの段階、経験則を発見したケプラーの段階、経験則の背後にある原理(理論)を見い出したニュートンの段階に対応しています。
本サイクル図と機械学習
機械学習モデリングの位置付けは、元ペーパーにあるように基本は②の帰納による法則の抽出です。ここでちょっと気になったのは、元ペーパーからは機械学習モデリングによって因果関係が抽出されるような印象を受ける点です。構造モデリングやベイジアンネットワークのような人間が構造を持たせるケースを除いて、基本的には相関ベースのモデリングだと思うので、この点は適用ケースに依存するのではないかと感じました。また最近、機械学習と因果推論が静かなブームになっていますが、この進展によっては帰納による法則の抽出と推論による原理の構築がシームレスに成される可能性があるのだなという理解をより鮮明にもつことができました。
データサイエンスの現場視点から仕事を振り返っても、上手くいくケースはこの流れに乗っていることに気付かされます。最近の解析業務に、ある素材への人々の評価の法則を解明したいというものがあったのですが、①観測による『現象』の記録(データ化)、②帰納による『法則』の抽出(機械学習によるモデリング)、③推論による『原理』の構築(素材エキスパートによる原理=仮説の構築)と進み、④現在は彼らの将来事業における『意図』を汲み取り、⑤その実現のための『設計条件』のコンサルティング・フェーズへと進んでおり、正にこの図に沿うように進んでいます。
本サイクル図のマネジメント応用
前節で記したように、このサイクル図がとても上手く回っている案件はかなり成功の部類に入る案件となります。私がこの図を見たとき感じたことは、もしこの視点を持ってデータサイエンス部門をマネジメントしていたら、過去のチームをもっと強力にできていたかもしれないなという反省です。チームのケイパビリティを向上させる上で、勘と経験と度胸では限界があります。この図をフレームワークとして、部門の強み・弱みを分析し、必要な人材の採用やアサインメントをできたらもっと良かったなと反省しました。
また、現状案件のポートフォリオ管理にも使えそうだなと思いました。もしあなたの部門の仕事が右に寄り過ぎていたらどうでしょうか。それは部門として新しいアイディア、新しく理解したいことが枯渇しているということではないでしょうか。そのように考えると、案件がどちらかに偏り過ぎている場合は、チーム再構築の兆しかもしれないと思うのです。マネジメントロールの方は、現在のポートフォリオの把握を進めてはいかがでしょうか。
機械学習ニーズの探索と考察
演繹から帰納とのハイブリッドへ
元ペーパーの内容に戻ります。石川先生は彼の初期の研究スタイルについて、以下のように述べています。
すなわち、情報量の少ないシンプルモデルからふるまいを引き出すという、演繹的な研究スタイルを得手としていた。支配法則はほぼ完全に既知であるから、実験を行う場合でもせいぜい少数のパラメータを同定するだけでよい。その内容も概して再現性の高いものが多く、実験はいわば理論のデモンストレーションと捉えていたため、現象そのものやデータへの意識は薄かったと自認している。
その上で、上記意識が徐々に変化し「長らく遠ざかっていた現象をつぶさに観察する」と言う帰納的なスタイルに立ち返るようになったことを記しています。
意識変遷の理由は、研究対象である移動ロボットの舞台が平坦な床上から空中、水中、そして極端な不整地などに移行していったことで(環境が非定常な流動性をもつようになったことで)、それまで通用していた駆動力の原理(定式化)が途端に難しくなったことが契機であったと述べています。そして、研究の興味対象がロボット本体から『環境』に変化したと記されています。この記述はとても印象的でした。
演繹スタイルを得手とする研究者の方が、このように帰納的スタイルに立ち返る契機となった過程(ストーリー)を知ることは、私たち実務家が機械学習活用の視野を拡げる上でとても重要だと私は考えています。なぜなら、現代機械学習自体が帰納スタイルの申し子だからです。帰納的スタイル(現象を観察しデータから法則を抽出する)の必要性の無いところに、機械学習の需要は基本的には無いのです。
ちなみに、今回のキーワードは『環境』でした。環境のふるまい、環境とロボットの相互作用。これらは強化学習や複雑系のキーワードに近そうですよね。複雑系の世界では、要素還元主義や原理の定式化(演繹)アプローチだけでは現象の解明はとても難しく、故に、第三の科学と言われる『シミュレーション科学』や、シミュレーションともまた異なる『データの科学』が馴染みやすいと感じています。このような科学的トレンドと今回ご紹介されていた意識変遷の理由の背景は無関係ではないのかもと妄想しました。
現代機械学習は帰納的パラダイム

前節で、現代機械学習は帰納的スタイルだと述べました。例えば、ニューラルネットワークもパーセプトロンの時代はルールベースの機械学習でした。正解データと推論結果に誤差があれば、その誤差を埋めるルールを人間が予め考えその通りに処理させ、様々なデータでルールの有用性を検証していました。
パーセプトロンで言えば、その後、中間層を入れることで線形分離不可能問題を克服したものの、ルールベースでは入力層と中間層の学習がデータから進められないという壁にぶつかりました。そして、それを解決したのがバックプロパゲーションで、データが一定数あれば確率的勾配降下法に基づき、データからモデルのパラメータ(ニューラルネットワークなら枝の重み)を最適化できるようになりました。これがマルチレイヤーパーセプトロンの原形となりました。このように、勾配法と帰納的スタイルによって、現代機械学習が加速したということは現代機械学習活用時の共通認識ですから、知っておくと良いかと思います。
一方、演繹的スタイルを無視するかのような態度には批判もあります。第一原理計算とググってみて欲しいのですが、科学的アプローチの基本姿勢は、やはり原理を突き詰める演繹だろうと自分でも思います。なので、第一原理を突き止めようとせず、データから法則を抽出しようとすることからスタートする、現代機械学習的なアプローチに抵抗感を抱く方々は、ビジネスパーソンの予想よりも、おそらく結構多く存在するだろうと思っています。この点への理解なく、人工知能や機械学習について軽々しく科学者に問うことは、他人の家に土足で踏み込み冷蔵庫を勝手に開けるようなものなのかなと思いますので注意しましょう(私は注意するようにしています)。
ここまでの話をまとめます。演繹的スタイルでやれる問題に機械学習活用の需要は無いが、問題の複雑化(今回は環境の複雑化)が生じれば、機械学習などの帰納的スタイルの採用余地が生じる。よって、ビジネスサイドとしては、マーケットニーズを武器に建設的に問題を複雑化させることが、工学系技術者が帰納的スタイルの併用を検討するキッカケとなり、引いては、機械学習技術で既存技術を補間させる動機付けを技術部門に与えることができる(かもしれない)という感じです。
機械学習の自然科学での活用事例
ここまではやや抽象度高く機械学習活用のヒントを考察してきましたが、やはり、活用事例があるなら知りたいというのが自然な欲求だと思いますので、最後に、元ペーパーおよび、先述の『変わりゆく機械学習と変わらない機械学習』(人工知能と物理学、2019年)の紹介事例も含めて以下にまとめます。
私個人として理解しやすかったのが最初の2つのケースです。やってみたいケースは3番目です。ここはまた別記事に膨らませて書きたいと思います。
- ブラーエの段階:南極点のニュートリノ観測施設IceCubeでは、膨大な観測データの中から信号が含まれている可能性の高い部分だけを機械学習により識別し通信回線で送信、その他はハードディスクで船で輸送
- ブラーエの段階:材料工学におけるベイズ最適化の活用。試験材料の生成と評価の繰り返し作業の効率化を図る。なぜ材料工学でこれが可能だったのかの要素技術については別途調査し記事にしたいと思います。
- ケプラーの段階:大規模な第一原理シミュレータ(個々の要素の振る舞いは明確に定式化できているがそれらを組み合わせたメタレベルのもう一つの実験装置)によって生成されるデータからの法則の抽出。シミュレータ生成データの解析は今後増えると思っています。むしろシミュレータを作るのが解析業務になると思います。
- ケプラーの段階:モデルベース強化学習のための敵対的生成ネットワークによる環境ダイナミクス予測(平成30年度SICE関西支部/ISCIE若手研究会, 175/179(2019))。これは元ペーパーの参考文献リストからですが、タイトルだけで何をやっているか想像が湧きますね。環境ダイナミクス予測が制御と設計における一つの直近課題であり、GANのこの種の活用は確実に増えますね。シミュレーションとアナリティクスが近づきそうです。
- ニュートンの段階:生命科学では膨大な文献から知識を抽出し、体系的に人間に提示する技術などが研究されている。やはりこの段階における機械学習の現時点の貢献は限定的です。というよりは、これをされたらもう人間は不要ですね。