家前向きの考え方 Googleは音声、コンテキスト認識に大きく賭けている

Googleは音声、コンテキスト認識に大きく賭けている

2024

昨日、どこでもAndroidを入手するGoogleの計画について聞いたとき、本当に際立っていた1つのことは、同社が製品をさらに進めるために音声認識とコンテキスト認識をどれだけ重視しているかということでした。どちらもGoogleや他の人が以前に議論したトピックですが、現在および近い将来、Googleがこれらのテクノロジーに対して具体的に使用している膨大な数の用途に感銘を受けました。これは、同社が両方の分野で大きな進歩を遂げていることを示唆しています。

音声認識は何年も前から存在し、スマートフォンでは、AppleのSiriから始まり、Google Now、そして最近ではMicrosoftのCortanaで始まるさまざまなパーソナルアシスタントの経験の不可欠な部分となっています。

「私たちは、世界で最も先進的な音声認識エンジンを構築しています」と、昨日のGoogle I / O基調講演で、GoogleのAndroid、Chrome、およびAppsの上級副社長であるSundar Pichai氏は述べています。他の人も意見が異なるかもしれませんが、同社は新しいユースケースで実際の音声のデモをたくさん見せました。

Android Autoの場合、同社はナビゲーション、コミュニケーション、音楽制御などを可能にする音声について話しました。これは、注意散漫な運転の世界では確かに理にかなっています。車の音声認識は新しいものではありません（MicrosoftとFordは2007年にFord Syncシステムを導入しました）が、Googleの実装は非常に良さそうでした。

さらに、音声認識は、今後登場するLG G WatchやSamsung Gear LiveスマートウォッチなどのAndroid Wearデバイスの一部でもあります。たとえば、Googleは音楽の再生や音声コマンドを使用したアラームの設定を実演しました。 Android TVで、Googleは音声を使用してビデオまたは関連コンテンツを検索する方法を示しました。（AmazonはFire TVでも同様の機能を売り込んでいます。）

しかし多くの点で、コンテキストメッセージはさらに興味深いものでした。

「私たちはすべてを状況に応じて認識しています」と、Pichai氏は述べました。Googleは、あなたの情報ニーズが場所ごとに異なるため、自宅、オフィス、または旅行中を理解したいと言います。自宅ではエンターテイメントに集中しているかもしれませんが、オフィスでは仕事関連の情報が必要です。「適切なタイミングで適切な情報を提供したい」と彼は述べた。

たとえば、Androidエンジニアリングディレクター（下記）のDavid Singletonは、平均的なスマートフォンユーザーが1日に125回スマートフォンをチェックする方法と、Android Wearの時計があなたが気にするものを表示するだけの方が良い方法について話しました。コンテキスト上。特に、あるデモでは、ユーザーが帰宅したときにパッケージを確認するように促すことを提案しました。そして、システムはそれを実行し、彼がいつ到着したかを理解しました。全体として、彼はコンテキスト情報に多くの焦点を当てており、たとえば旅行者のフライト状況、搭乗券、天気などを表示しています。また、新しいAndroid Wear SDKを使用すると、そのようなデバイス向けの「一目でわかるコンテキストアプリ」を構築できると開発者に語りました。

シングルトン氏によると、最高のウェアラブルアプリはユーザーのコンテキストに反応します。たとえば、彼はEat 24アプリのデモを電話で示し、以前にピザを注文したときのことを思い出し、1週間後に注文を繰り返すことを提案します。アプリは自宅の住所を知っています。

音声制御、コンテキスト、および電話とウェアラブル間のシームレスな接続の概念を組み合わせることで、いくつかの興味深いシナリオを作成できます。シングルトン氏によると、GoogleはAndroid Wearにいくつかの音声コマンドを追加しており、今後数か月で追加する予定だという。たとえば、彼はAndroid WearデバイスでLyft輸送サービスアプリケーションをデモンストレーションしました。ユーザーは「車と呼んでください」と言うだけで、正確な場所に注文できます。

このコンテキストを提供するために、Googleはあなたがどこにいて何をしているのかをよりよく理解する必要があります。この情報の多くはすでにスマートフォンにあります。今日の携帯電話は、GPSのおかげであなたがどこにいるのかを知っています。GoogleNowを使用すれば、Googleはすでに自宅やオフィスの場所を知っているので、道順や天気を知ることができます。（これは今日は必ずしも完全に機能するとは限りませんが、正しい方向に進んでいます。）

しかし、Googleはもっと知りたいと思っています。昨日の基調講演では発表されなかったが、GoogleのNest Labs（スマートサーモスタットと煙検知器を製造）は最近、より多くの情報を他の製品と統合する開発者プラットフォームを発表しました。たとえば、Nestは、Jawbone UP24バンドがどのようにサーモスタットに部屋を暖めるか冷やすように指示するかについて、あなたが起きたときに基づいて話しました。またはあなたのメルセデス車がサーモスタットにあなたが家に向かっていると伝える方法。これをGoogle Nowと統合することを想像するのは難しくありません。つまり、Googleは自宅にいるかどうかを監視し、スケジュールをよりよく把握できるようになることを意味します。 NestもDropcamを買収したばかりなので、Googleが実際に家の中にカメラを持っているという考えはもはや大げさではありません。

もちろん、これはすべて特定の理由で、特定のサービスを提供するために行われます。そして、あなたには多くの情報収集を「オプトアウト」する権利がありますが、私たちのほとんどは私たちがサービスを気に入っているからです。しかし、Googleがこの情報を使用して他のコンテキスト認識サービスを提供し、最終的にはその情報を使用してよりターゲットを絞った広告を販売しようとすることを想像するのはそれほど難しくありません。結局のところ、それは会社が利益の大部分を稼ぐ方法です。したがって、企業があなたの状況をよりよく理解しようとするにつれて、プライバシーの懸念がどのように増大するかを簡単に見ることができます。

この情報を収集しようとしているのはGoogleだけではありません。マイクロソフトは、コンテキストをよりよく理解したいということについて長い間話してきました。また、Xbox Oneが常にコマンドをリッスンできる方法も議論の余地があります。 Appleからもこのことについてもっと聞くと思います。

しかし、コンテキストと音声をよりよく理解することは、長い間、正当な理由でコンピューターサイエンスの目標であり、これらの技術の発展を見るのはエキサイティングです。プライバシーの問題を心配する必要はありますが、これらのテクノロジーは、より個人的で使いやすいアプリケーションの大きな可能性を提供します。