家ビジネス機械学習を成功させるための7つのヒント

機械学習を成功させるための7つのヒント

2024

ビデオ: Faith Evans feat. Stevie J – "A Minute" [Official Music Video] (十一月 2024)

機械学習（ML）のビジネスガイドの最初の部分では、ビジネス環境でMLの包括的な概念がどのように微妙に変化するかを分析しました。最も効果的な戦略は、実用的な意味でMLを見て、複雑なディープラーニングとそれほど集中的でない「安価な学習」技術の両方を使用して、エンタープライズプロセスを最適化し、具体的なビジネスインテリジェンス（BI）の洞察を獲得します。

ビジネスアプリケーション内にMLを展開する目的は、収益を改善するか、会社の競争上の優位性を高めることです。しかし、組織の大規模なスキームでは、このプロセスに投資する時間とリソースを最大限に活用することは、アルゴリズムをはるかに超えています。ビジネスのIT意思決定者は、データやロジスティクスからユーザーとの関わり方まで、MLの実装に考慮されるすべてのものが、効果を最大化するために一体となって機能することを確認する必要があります。

Ted Dunning博士は、さまざまなビッグデータの配布とデータ管理ツールを提供するエンタープライズソフトウェア会社であるMapRのチーフアプリケーションアーキテクトです。 Dunningは、「Practical Machine Learning」と呼ばれるものに関する2冊の本を共同執筆し、ID Analytics不正検出システム（LifeLockが購入）やMusicmatch Jukeboxソフトウェアなど、長年にわたって多くの企業向けにMLテクノロジーを開発しました。後にYahoo Musicになりました。彼は現在、Apache Software Foundationのインキュベーション担当副社長も務めています。

Dunningは、MLスペースが数十年にわたって進化するのを見て、実際のビジネス環境で何が機能し、何が機能しないかについて多くを学びました。以下に、Dunningは、MLに根ざしたビジネスソリューションを開発する際に従うべき7つのベストプラクティスを示します。

1.物流を忘れないでください

MLを成功させるには、適切なツールまたはアルゴリズムを選択するだけではありません。 Dunningは、どのアプローチが適しているかを把握し、対処する特定の状況に合わせて設計する必要があるとも述べました。たとえば、DunningはオンラインマーケティングキャンペーンでMLについて話しました。自動運転車を誘導するアルゴリズムなど、はるかに複雑なシナリオとは対照的です。アルゴリズムを段階的に改善するためにリソースを費やすことは、自動車にとっては面倒な価値がありますが、マーケティングシナリオでは、周辺のすべてのロジスティクスを最適化することで、はるかに良いリターンが得られます。

「多くの場合、企業にとっては、学習ではなくロジスティクスが価値をもたらします。それは時間とリソースを費やすべき部分です」とDunning氏は述べています。「アルゴリズムを調整すると、少し改善されます。しかし、そのデータ、GUI、ユーザーの聴き方と関わり方を調整することで、100％の改善が簡単に得られます。アルゴリズムの調整に費やす時間は、ユーザーの声に耳を傾けているように、企業にとっても重要です。」

この点を説明するために、Dunningは、かつて会社の顧客データベースでアプリケーション詐欺（盗まれたIDで偽のアカウントを開く）を識別するためのモデルを構築した方法について説明しました。彼が構築したモデルは素晴らしい結果を得ましたが、Dunningはそれが申請者の性別に非常に重きを置いていることに気付きました。

ロジスティクスがオフになっていることが判明しました。申請プロセスのしくみは、申請者が性別を記入したのは、すでに顧客になり、詐欺師を除外するためのいくつかのスクリーニング手順を通過した後です。そのため、性別フィールドを使用することで、MLモデルは不正行為プロセス全体のロジスティクスをごまかしていました。それはアルゴリズムとは何の関係もなく、そもそも会社がどのようにデータを取得していたかということに関係しています。

2.データに注意する

督促には、人目を引く知恵があふれています。「学習ではなく物流である」から始めた後、彼はそのアイデアの残りの半分は「アルゴリズムではなくデータである」と述べた。 MLアルゴリズムが貴重な洞察を確実に提供するための大部分は、適切なデータを確実に提供することです。 Dunning氏は、探している結果が得られない場合は、正しいデータを使用していないためであることが多いと言いました。

「人々はすべて傷つき、特定のアルゴリズムにエゴに縛られますが、今日では、世の中にあるツールのおかげで、すべての人とその母親があらゆる種類の新しいアルゴリズムを考え出すことができます」とダニングは述べました。「データははるかに重要であり、アルゴリズムを際限なく微調整するよりもはるかに高い効果が得られます。音声認識やコンピュータービジョンなどの難しい問題に取り組んでいる場合、それは一つのことです。しかし、これはデータ駆動型の分野です。大半のシナリオでは、取得するデータを調整し、質問を変更することにより、はるかに多くのメリットが得られます。」

これは、Veoh Networksという会社でビデオ推薦エンジンを構築するときに2000年半ばにDunningが行ったことです。チームは、ユーザーが予想以上にクリックしたユーザー生成ビデオのペアを特定するために作業していましたが、アルゴリズムは機能していませんでした。ユーザーはお気に入りのアーティストや曲を名前で知っている音楽の観点から考えていました。そこで彼らは、アルゴリズム自体に触れることなく、ユーザーインターフェイスを微調整することで質問を変更しました。

「ユーザーが作成したビデオでは、アーティストや多くのビデオが本当に多くの再生回数を得るためにスパムのタイトルを持っていることを誰も知りませんでした。アルゴリズムの微調整を繰り返しても良い結果は得られませんでした」とDunning氏は言います。「私たちがやったことは、10秒ごとにビーコン信号を発するようにユーザーインターフェイスを変更しました。レコメンダーの生データにクリックの代わりにビーコンを使用すると、素晴らしい結果が得られることがわかりました。推奨事項によるエンゲージメントの100％の改善、アルゴリズムの変更なし。」

3.アルゴリズムは魔法の弾丸ではない

MLの実装は、継続的な試行錯誤の中で成功しています。アルゴリズムがどれほど優れていても、システムが人間と対話している場合は、時間をかけて調整する必要があります。 Dunningは、企業は常に実装の全体的な有効性を測定し、それを改善し、悪化させている変更や変数を特定する必要があると強調しました。これは当たり前のように聞こえるかもしれませんが、Dunning氏は、それがいかに明白であるにせよ、これを行っている、またはうまくやっている人はほとんどいないと言いました。

「多くの人がシステムを展開したり、何らかのアクションを実行したり、アルゴリズムを永久に完全に実行したい」とDunning氏は述べています。「魔法の弾丸となるアルゴリズムはありません。ユーザーインターフェイスの設計が永遠に続くことはありません。データ収集方法に取って代わることはありません。これはすべて起こり得、起こります。ビジネスは慎重に測定、評価、再評価する必要がありますシステムが動作します。」

4.多様なツールセットを使用する

多数のMLツールが利用可能であり、その多くは無料で使用できます。 Caffe、H20、Shogun、TensorFlow、Torchなどの人気のあるオープンソースフレームワークライブラリ、およびMahout、Singa、Sparkなどの多くのApache Software Foundation（ASF）プロジェクトにMLライブラリがあります。次に、Amazon Machine Learning、BigML、Microsoft Azure Machine Learning Studioなどのサブスクリプションベースのオプションがあります。 Microsoftには無料のCognitive Toolkitもあります。

利用可能な無数のリソースがあります。 Dunningは多くの企業、データサイエンティスト、およびMLプラクティショナーと話をしており、常に彼らが使用するフレームワークとツールの数を尋ねています。平均して、Dunning氏によると、ほとんどの場合、少なくとも5〜7個のツールを使用し、さらに多くのツールを使用するという。

「1つのツールに接着することはできません。複数のツールを使用する必要があるため、不可知論的な方法でシステムを構築することをお勧めします」とDunning氏は述べています。「このツールがあなたが必要とする唯一のツールであるとあなたに納得させようとする人は、あなたに手形を売ることです。

「来週、アップルカートを混乱させる何かが起こる可能性があります。私たちが見ているイノベーションの速度で、少なくとも5〜10年は続くでしょう」とDunningは続けた。「おそらく、既存の画像分類子を使用してカタログ内の写真を再利用している安価な学習例をご覧ください。それは、コンピュータービジョンが組み込まれた深層学習です。しかし、すべてをパッケージ化したツールがあります。さまざまなツールを測定、評価、検証するために、インフラストラクチャはそれを歓迎する必要があります。」

5.ハイブリッド学習の実験

Dunningは、安価な学習とディープラーニングを組み合わせて、ハイブリッドの何かにすることもできると言いました。たとえば、既存のコンピュータービジョンモデルを使用して、意思決定が行われている上位数層を再構築する場合、まったく新しいユースケースに既存のフレームワークを採用できます。 Dunningは、競技者がまさにそれを行ったKaggleコンペを指していました。彼らはデータセットを取得し、コンピューターが猫と犬を区別できるように新しいアルゴリズムを作成しました。

「猫と犬を区別することはMLアルゴリズムにとって非常に微妙なことです。論理について考えてみましょう。猫は先のとがった耳を持っていますが、ジャーマンシェパードもそうです。犬はダルメシアンなどを除いて斑点がありません。それ自体で」とダニングは言いました。「勝った男は99％の精度でこれを行うシステムを開発しました。しかし、3番目に来た人に感銘を受けました。ゼロから構築する代わりに、彼は既存の画像認識プログラムを別のタスク彼はいくつかの例を挙げましたが、すぐに猫と犬を区別するのに98パーセントの精度がありました。このプロセス全体で3時間かかりました。」

6.安いことは悪いことではない

明白な意味合いにもかかわらず、ダニングは、安い学習は悪い学習を意味しないと言いました。 ML実装に費やす時間は、そのビジネス価値と直接相関しません。より重要な品質は、プロセスが再現性と信頼性があることを確認することだと彼は言いました。ビジネスが過度のリソースを投資せずにそれを達成できる場合、それはすべてより良いです。

「安いということは悪いことではありません。うまくいけばうまくいきます。安くてうまくいけば、それはすばらしいことです。しかし、あなたがそれを構築するための努力は価値を定義しません。。「価値を定義するのは、ビジネスをどのように改善するかです。利益を改善するか、コストを削減するか、競争状況を改善する場合です。それは効果であり、努力ではありません。」

7. AIと呼ぶな

Dunningは、これらの手法について話すときは、ML、コンピュータービジョン、またはディープラーニングという正確な用語を使用する必要があることを強調しました。これらはすべて「人工知能」という包括的な用語に該当する傾向がありますが、Dunningにとって、AIの定義は単に「まだ機能しないもの」です。

「AIに関して今まで聞いた中で最高の定義は、それがまだ説明できないことだということです。私たちが理解できていないものです」とDunning氏は言いました。「何かが機能するたびに、「ああ、それはAIではなく、単なるソフトウェアです。それは単なるルールエンジンです。本当に単なるロジスティクスの回帰です」と人々は言います。多くの点で、AIは次のフロンティアの言葉として使用する方がよく、AIには常に次のフロンティアがあります。すでに到達した場所ではなく、我々はどこに向かっているのか。」