家ご意見アレクサの間違いから学ぶ

アレクサの間違いから学ぶ

2024

Amazon Echoデバイスは最近、ユーザーのプライベートな会話を記録し、知らないうちに同意なしに連絡先の1つに送信しました。これは（再び）スマートスピーカーのセキュリティとプライバシーに関する懸念を提起します。ただし、後に明らかになったように、Alexaの奇妙な動作は、不吉なスパイプロットの一部ではなく、スマートスピーカーの動作に起因する一連の障害に起因していました。

Amazonが提供するアカウントによると：「エコーは、「Alexa」のように聞こえるバックグラウンド会話の単語のために目覚めました。その後、その後の会話は「メッセージの送信」リクエストとして聞かれ、Alexaは「誰に？」その時点で、バックグラウンドでの会話は顧客の連絡先リストの名前として解釈され、Alexaは「大丈夫ですか？」と大声で尋ねました。 Alexaは、バックグラウンドでの会話を「正しい」と解釈しました。この一連のイベントが発生する可能性は低いので、このケースをさらに少なくするためのオプションを評価しています。」

シナリオは、非常にまれにしか発生しない種類のエッジケースです。しかし、Echoやその他のいわゆる「スマート」デバイスを駆動する人工知能技術の限界に関する興味深い研究でもあります。

クラウドへの依存が大きすぎる

音声コマンドを理解するために、EchoやGoogle Homeなどのスマートスピーカーは、高度な学習アルゴリズムに依存しており、これには広範な計算能力が必要です。タスクをローカルで実行するためのコンピューティングリソースがないため、AIアルゴリズムが音声データをテキストに変換してコマンドを処理するメーカーのクラウドサーバーにデータを送信する必要があります。

しかし、スマートスピーカーは、聞くものすべてをクラウドサーバーに送信することはできません。そのため、製造業者はサーバーに過剰な量のデータを保存する必要があり、そのほとんどは役に立たないでしょう。ユーザーの家で行われているプライベートな会話を誤って記録および保存することは、プライバシーの課題をもたらし、特にハイテク企業がデータを保存および使用する方法に厳しい制限を課す新しいデータプライバシー規制により、メーカーを困らせる可能性があります。

スマートスピーカーは、ユーザーが「Alexa」や「Hey Google」などのウェイクワードを発声した後にトリガーされるように設計されているのはそのためです。ウェイクワードを聞いて初めて、分析と処理のためにマイクの音声入力をクラウドに送信し始めます。

この機能はプライバシーを改善しますが、最近のAlexa事件が強調したように、独自の課題があります。

ConversocialのCEOであるJoshua March氏は、次のように語っています。「その時点で、設定したスキルに関連するコマンド（メッセージングアプリなど）を非常に聞き取ります。ほとんどの場合、Alexaが注意を払っているコンテキストを制限することでプライバシーが大幅に強化されます（通常の会話を録音したり聞いたりすることはありません）、この場合は裏目に出ましたが。」

エッジコンピューティングの進歩は、この問題の軽減に役立つ可能性があります。 AIとディープラーニングがますます多くのデバイスとアプリケーションに進むにつれて、一部のハードウェアメーカーは、クラウドリソースにあまり依存せずにAIタスクを実行するために特化したプロセッサを作成しました。エッジAIプロセッサは、Echoなどのデバイスがすべてのデータをクラウドに送信することにより、ユーザーのプライバシーを侵害することなく、会話をよりよく理解して処理するのに役立ちます。

コンテキストと意図

バラバラに断片化された音声を受信することは別として、AmazonのAIは人間の会話のニュアンスを理解することに苦労しています。

「過去数年間でディープラーニングが大きく進歩し、ソフトウェアがこれまで以上に音声と画像を理解できるようになりましたが、まだ多くの制限があります」とマーチは言います。「音声アシスタントはあなたが言っている言葉を認識できますが、その背後にある意味や意図を実際に理解しているわけではありません。世界は複雑な場所ですが、今日のAIシステムはどれも非常に特定の狭いユースケース。」

たとえば、私たち人間には、声の調子などの文が私たちに向けられているかどうか、または話し手が見ている方向などの視覚的な合図に従うかどうかを判断する多くの方法があります。

対照的に、Alexaは、「A」という単語を含む文の受信者であると想定しています。これが、ユーザーがしばしば誤ってトリガーする理由です。

問題の一部は、現在のAIアプリケーションの能力を誇張し、しばしば人間の心と同等またはそれ以上に置き、それらに過度の信頼を置いていることです。だからこそ、彼らが見事に失敗したとき、私たちは驚いています。

「ここでの問題の一部は、「AI」という用語が非常に積極的に販売されているため、消費者がこの用語を結び付けて製品に不当な信頼を置いていることです」と、神経科学者でスターマインドの創設者であるパスカル・カウフマンは言います。「このストーリーは、Alexaには多くの機能があり、それらを適切に適用する方法と時期についての理解が比較的限られていることを示しています。」

ディープラーニングアルゴリズムは、トレーニング対象のデータやシナリオから逸脱した設定に直面すると失敗する傾向があります。「人間レベルのAIの特徴的な機能の1つは、自給自足の能力とコンテンツの真の理解です」とカウフマンは言います。「これは、AIを真に「インテリジェント」と見なすための重要な部分であり、その開発に不可欠です。人間性の完全な理解をもたらす自己認識デジタルアシスタントを作成すると、楽しいノベルティから真の便利な道具。"

しかし、一般的なAIとも呼ばれる人間レベルのAIの作成は、言うよりも簡単です。何十年もの間、技術の進歩が人間の心がどれほど複雑であるかを示したために失望するだけで、私たちはそれがもうすぐそこにあると考えてきました。多くの専門家は、一般的なAIを追いかけるのは無駄だと考えています。

一方、狭いAI（現在の人工知能技術が説明されているように）にはまだ多くの機会があり、ミスを繰り返しないように修正することができます。明確にするために、ディープラーニングと機械学習はまだ初期段階であり、Amazonのような企業は、AIアルゴリズムを絶えず更新して、発生するたびにエッジケースに対処しています。

私たちがすべきこと

「これは若い新興分野です。自然言語理解は特に初期段階にあるため、ここでできることはたくさんあります」と、Atomic XのCTOであるEric Moller氏は言います。

Mollerは、音声分析AIアルゴリズムを調整して、イントネーションと屈折をよりよく理解できると考えています。「より広い文で「Alexa」という単語を使用することは、呼び出しやコマンドとは異なるように聞こえます。Alexaが目を覚ますべきではありません。その名前を伝えたからです」とMollerは言います。十分なトレーニングがあれば、AIはどの特定のトーンがスマートスピーカーに向けられているかを区別できるはずです。

ハイテク企業は、直接話されるのではなく、バックグラウンドノイズを受信するタイミングを区別できるようにAIをトレーニングすることもできます。「背景のチャタリングには、人間が拾い上げて選択的にチューニングするのに非常に優れたユニークな聴覚の「署名」があります。同じことをするようにAIモデルを訓練できない理由はありません」とMollerは言います。

予防策として、AIアシスタントは、自分が下す意思決定の影響を評価し、潜在的に機密性の高い何かを実行したい場合には人間の意思決定を含める必要があります。製造業者は、ユーザーの明示的かつ明確な同意なしに機密情報が送信されるのを防ぐために、自社の技術により多くの安全対策を講じる必要があります。

「Alexaが解釈したアクションを確認しようとしたとAmazonは報告しましたが、一部のアクションはより慎重に管理し、ユーザーの意図をより高いレベルで確認する必要があります」とTonkeanのCEO、Sagi Eliyahi氏は言います。「人間は同じ音声認識の問題を抱えており、ときどき聞き間違える要求があります。しかし、Alexaとは異なり、人間は不明瞭な要求を理解していることを絶対に確認する可能性が高く、さらに重要なことに、過去の要求と比較して要求の可能性を評価します」

その間…

ハイテク企業はミスを減らすためにAIアプリケーションを微調整しますが、ユーザーは、AIを搭載したデバイスで発生する可能性のあるエラーにどれだけさらされたいかを最終的に決定する必要があります。

「これらの物語は、人々が新しいAIテクノロジーの約束に対して喜んで共有するデータ量との矛盾を示しています」と、データサイエンスの専門家であり、AIとソフトウェアに関する複数の本の著者であるダグローズは言います。「Siriが遅いことをからかうかもしれません。しかし、彼女がより優れた知性を達成するための最善の方法は、私たちのプライベートな会話に侵入することです。したがって、今後10年程度の重要な質問は、これらのAIエージェントが私たちの行動をどの程度覗くことができるかです？」

「どの家族が居間に人間の助手を置いて、その人にいつもどんな種類の会話も聞かせますか？」スターマインドの神経科学者カウフマンは言う。「少なくとも、「AI」デバイスと呼ばれるものに同じ基準を適用し、プライバシー、機密性、または信頼性に関しては人間の知的存在にも適用する必要があります。」