2015年6月30日火曜日

機械学習に期待するな

データアナリティクス・グループの新村です。

ここ数年、ビッグデータや機械学習といった言葉がIT業界を賑わせています。


IBM社のワトソンが新しい料理のレシピを考案して本を出版したり、Facebookがアップロードした写真に移る顔から人を特定したり、Amazonが私の欲しい商品をリコメンドしてくれたり…機械学習の成果は華々しく紹介されています。




こんな話を聞いていると、自分の会社も機械学習を使えば、自分たちの事業でも凄い結果が出てくるんじゃないか…なんて期待を抱いたりするかもしれませんが、それは多くの場合、幻想です。

機械学習は、従来のIT投資とは異なった特性を持っています。この特性を無視して、従来のIT投資の延長線上で投資を行うと成果が出ない、費用対効果が低いといった問題に直面します。実際に、僕も従来の分析システムの認識で機械学習をプロジェクトに取り入れて酷い目にあってきました。

機械学習は、これまで不可能だと思っていたことを可能にすることができる技術です。その一方で、これまでの技術にはなかった管理手法が必要とされます。今回は、この技術の扱い方について、私の経験も交えて使いどころを紹介していきます。

「不正利用の可能性 85%」「で、それは不正なの?」


機械学習は、ウェブサーバーのログデータや売り上げデータを入れれば、不正を見つけてくれたり、最適な売り上げの組み合わせを提案してくれる…わけではありません。
機械学習は、統計学的に売り上げに相関があることを確立で示してくれたり、新しい相関関係を見つけてくれたりするものです。

「クレジットカードの不正利用を機械学習で特定する」

よく聞いた話ですが、機械学習では、どのような結果が返ってくるでしょうか。

「このカード利用明細が、不正利用パターンに分類される可能性が85%」

さて、この85%という数字は業務的にどのような意味を持つのでしょうか?

この問いに陥ってしまうと、素晴らしい機械学習の世界も終わりを迎えてしまいます。

「このシステムはできが悪い」


不正利用パターンは、人間がログを追えば意外と分かるものです。条件分岐を使った不正利用検出ツールも多く存在します。人の目や条件分岐であれば、「なぜその取引が不正なのか」理由は明らかなので、説得力もあるように思えます。

これに対して機械学習では、過去の取引をグルーピングした結果、不正利用グループに属する可能性は85%、という話であり、原因は不明です。また、正しいと判断されたグループにも不正な取引が含まれている可能性もあります。

従来の自動化や機械化の流れで、この機械学習の結果を仕組みとして取り込むと問題が発生します。

前のシステムでは検知できていた、手作業の方が精度が高い、なぜ間違うのか理由を知りたい etc… 沢山の不満が噴出してきます。こういう話になると、機械学習は何もできません。学習が進めば検知精度も向上すると説明しても、認知バイアスが働いて、この仕組みに対する評価は覆せません。

統計学的に正しくても、現場志向の強い日本企業において、個別の処理に失敗することは、致命的な汚点となってしまいます。

「不可能だと思うことに使え」


統計学的な手法をうまく活用している企業は、条件分岐と統計学の使いどころを心得ています。

決定木を作ることが難しいような複雑なパターン認識、つまり、人間がパターン認識することが難しい領域(スパムフィルタや医療診断)において利用したり、人間では思いつかないような組み合わせの発見(ワトソンシェフ)のためにを活用しています。

機械学習は、通常業務を自動化するような分野においてではなく、人知が及ぶまいと思っている分野において、分析と助言を可能にすることが最大の強みであり、このような分野に適用することが、成功する機械学習プロジェクトの第一歩につながると言えます。

先のクレジットカードの不正利用パターンを検知する試みも、仕組みとして代替しようとしたため失敗しました。もう少し温和に、従来の仕組みと共存を計りながら、機械学習で新たなパターンを探す試みが必要でした。

これまでパターン化は不可能だと思っていた分野があれば、是非とも機械学習を使って取り組んでみてください。きっと非常に投資対効果の高い面白い成果が出てくると思います。


0 件のコメント:

コメントを投稿