今回はAkasaka@データ分析とビジネスアナロジーさんの以下tweetをみて共感したのでその紹介とこれに関連すると思った具体例を加え記したいと思います。今回も前回コラム同様、私の一方的な理解で書きますので参照元の主張とはズレているかもしれませんがそこは寛大に。

分析には目的がありその達成のためにデータは収集されます。もしその収集があらゆる角度から完全にバイアスなく、つまり解析対象から満遍なくサンプリングされ十分な量と時間的長さと観点から収集された物であれば一心不乱にそのデータを分析すれば良いのかもしれません。ただこのような理想的なデータ収集がかなうことは現実的にはほとんどありません。そうと知りつつも分析官はつい(手元にあるデータは完全であるかのように)データ(だけ)を分析してしまう。でもそれは違うんだよということを指摘しているのかなとまずは感じました。

データ分析部門の利用サイドからすると何を当たり前のことをと思われるかもしれません。データサイエンティストなど技術系の人間はどうも技術にばかり意識が向いてビジネスを俯瞰するのが苦手だなと感じられた方もいるかもしれませんが少々お待ち下さい。データ分析部門の利用サイドにも大きな罠があります。それは認知バイアスや推論の誤謬です

得たい結論を得るために都合良くデータを分析してしまうのはむしろ統計学等の学習を通しサンプリングについて謙虚になる経験を経ていない利用側に散見される現象です。確証バイアスに引きずられ自分の仮説を支持するデータばかりを収集し自信を深める理論家気取りの自信過剰屋さん。初期仮説を反証するデータを過小評価する妖怪アンカリング。全体の廃棄率がたとえ0.1%であっても1000本無駄になれば(例えばですよ)ワクチンが1000本も無駄になった!と騒ぎ出す割合と絶対値を都合よく使い回す数値の魔術師など。いずれにせよ(都合のよいように)データを分析するという意味ではやはり望ましい状況ではありません。

ここまでデータ「を」分析する感覚ではなく、データ「で」分析する感覚について書いてきましたが、ここで一つ理解共有のための例を紹介したいと思います。以下はホーム・インスペクションサービス等々を展開されているらくだ不動産代表の方のtweetです。

家を買う身になれば、至極理解しやすい指摘をされていますよね。売主サイドが斡旋するインスペクション業者を気楽に信じられますかと。上記tweet元の国土交通省の該当画像は下記です。もちろん元資料を全部読めば印象は変わるのかもしれませんがその確認を私はしていません。あくまでこれだけを見た所見です。ただビジネスドキュメントは one-slide, one-message。誤解される書き方が悪いという世界ですからここではそのスタンスで。

上図から約57,000件の調査データを利用。調査対象に大きな偏りが生じない収集設計だろうとここでは楽観的にスルーします。さてタイトルと黄色枠メッセージを見てどう思いますか。まず率直にこれは単なるインフォメーションですよね。割合が6%というのはインフォメーションに過ぎず、それをどう解釈したらよいかのメッセージ(インテリジェンス)は見当たりません。業界人ならわかるメッセージがあるのかもしれませんが私にはわかりませんでした。大きな数に訴える論証(appeal to large numbers)というのがありますが、今回はその逆(小さな数に訴える論証)で考えて6%がメッセージであるとしましょう(図もそのような意図で作られているように見えます)。

売主側のインスペクション斡旋に対し希望する割合が6%と小さいのが課題である。このようにメッセージがあるとして先述の指摘はどうでしょうか。課題はそこじゃないと。問題構造としてそもそも買主側がインスペクションサービスを認知していないことやインスペクション市場の透明性や独立性の担保なく売主側から斡旋されてもなかなか信用できませんよねと。取り組むべきは売主側の斡旋に対する希望率の向上などでは間違っても無いと読める訳です。

本コラムの本題に戻ります。もし手元にこのデータしかなかったとします。誰でも集計すれば6%は6%です。確かに数値も小さく課題に感じます。データを分析できてはいるのでしょう。ただそういうことでは無いんですよと。分析の目的は何か。その目的を果たすために必要なデータは何か。このデータで検証できる仮説は何で検証できない仮説は何か。私たちは目的達成のためにデータを用いて分析しているのであってデータを分析しているのでない。最初のtweetはそういう主張ではないでしょうか。

今後、機械学習等で自動化される意思決定は多々あるでしょう。しかしその判断で組織の競争優位性が変わるような重要な意思決定をできるのは、やはりまだ(自身の思考や外部アルゴリズムに投入する前のデータ収集に主体的責任をもつ)人間でしょう。ただし全ての人ではなく自身の思考と本質的に向き合っている人だと思います。そしてそのような人は機械学習等の分析技術を自分の意思決定を向上させるために使いこなそうとする人だと思うのです。

あなたは機械学習等を私たちの思考を強化(拡張)してくれる技術と捉えていますか、それとも一技術要素として外注すれば済むものと捉えていますか。後者認識のままだと時間とお金を費やしても習得はおろかその利用自体も難しいのではないかと思うのです。ご自身の思考拡張のための技術として機械学習等を捉え直してみてはいかがでしょうか。

メルマガ登録のご案内

CI.ではデータ&ディシジョン科学の観点からの情報発信を行っています。
よろしければ、メルマガ登録をお願い致します。

コメントは利用できません。