前向きの考え方 インテリジェントアシスタント:siriの後に来るものは?

インテリジェントアシスタント:siriの後に来るものは?

ビデオ: 不要嘲笑我們的性 (十一月 2024)

ビデオ: 不要嘲笑我們的性 (十一月 2024)
Anonim

インテリジェントアシスタント(Siri、Google Now、Cortanaなど)は、ほんの数年前に好奇心やパーラーのトリックから、多くの人が日常生活で使用する不可欠なツールに移行しました。 先週、私はOpus Researchが発表したニューヨークでのIntelligent Assistants Conferenceに立ち寄り、特定のエージェントを構築する金融、保険、医療会社の進歩を含む、さまざまな業界でソフトウェアが行っている進歩に感銘を受けました。

Opus Researchの創設者であるダンミラーは、音声認識などのコアテクノロジーの多くは20年以上前から存在していると説明しました。 彼は最近、革命ではなく大きな改善をいくつか見ましたが、さまざまな機能を備えた多くの製品が「進化の道を歩んでいます」と語っています。 彼は、数百のエンタープライズインテリジェントアシスタントがあり、固定データセットを使用した単純なテキストベースの会話や、WebサイトやFAQのナビゲートなどに使用できると述べています。 スペクトルのもう一方の端では、おそらくより多くの会話とコンテキストを認識している「動的で人間的な感覚のアプリ」が数ダースしかありません。

ミラーは、会議で賞を受賞したアプリケーションを指摘しました。 アムトラックのジュリーは数年前にインタラクティブな音声応答電話サービスエージェントとしてスタートしましたが、Next ITのエージェントに基づいて、ウェブサイト上でAmtrak.comを介して旅行者をガイドするエージェントに進化しました。 Telefonica Mexicoには、Avatarを持ち、AgentBotのプラットフォームに基づいてTwitterとFacebookを介してサポートを提供するNicoという名前のエージェントがいます。 ING NetherlandsにはIngeがあります。Ingeは、Nuanceの音声バイオメトリック技術を使用して、銀行口座の残高を確認したり、音声で送金したりして、本人確認を行うことができます。

称賛に値する言及には、ヘルスケアプランの選択に役立つアプリなどのヘルスケアアプリケーションが含まれます。 ショーで聞いた他のアプリケーションには、DominoのPizzaがあります。Domと呼ばれるアプリでは、音声を使用してピザを注文できます。 また、BMWはUp2drive自動車資金調達部門の一部として仮想エージェントを持っています。

NuanceのBrett Beraneck氏は、ディープラーニングニューラルネットワークの進歩により、自然言語の理解や音声認識などの改善がどのように行われたか、そしてこれがどのようにこの分野に関心を寄せるようになったのかについて話しました。 NuanceのNinaアシスタントは初期の例でしたが、その後、保険会社の対話型音声応答システムからショッピングアプリに至るまで、多くの特定のアプリケーションに成長しました。 これらのアプリケーションのそれぞれは、あなたが何をしようとしているかによって、性格が異なります。

彼が議論した大きな新機能の1つは、音声バイオメトリクスで、ここでは音声がパスワードに置き換わります。 彼は、ヨーロッパのINGなどの企業が、音声認識と自然言語処理を使用するだけでなく、通話を認識するために音声を使用し始めているエージェントをどのように開発しているかについて話しました。 彼は、これは従来のパスワードよりも安全で自然であると言いました。

最近の研究では、音声録音がこのようなシステムをだますことが心配されていますが、ニュアンスは、今日の技術には録音された音声から異常を拾うことを目的とした機能が含まれていると指摘し、別の視点をとった他の研究を指摘しました。 それに加えて、デザイナーはさまざまな機能にさまざまなレベルの音声バイオメトリクスを使用できます。たとえば、単純な認識を使用して口座残高を確認したり、多額の送金のために単語のランダムシーケンスを繰り返すように求めたりします。

音声バイオメトリクスは確かに注目を集めているようです。 先週のGartner Symposiumで、金融サービスの「クールな顧客事例」に関するセッションには、この機能を使用したCitibankアプリが含まれていました。

MyWaveにはFrankと呼ばれるアシスタントがあります。これは、複数の企業が各ビジネスを独自に開発するのではなく、より会話的な方法でやり取りできるようにすることを目的としています。 最初の用途には、ニュージーランドの銀行と、電力会社を選ぶのに役立つSaveawattというアプリがあります。

CEOのGeraldine McBrideは、同社が「顧客管理の関係」またはCMR(従来のCRMアプリケーションのスピン)と呼ぶもので、顧客とサービスアプリの間のギャップを埋めるアシスタントを作成しようとしていると説明しました。 彼女によると、大きな違いの1つは、顧客がビジネスではなく、すべてのデータを担当しているということです。

別の比較的新しい会社であるExpect Labsには、MindMeldという製品があります。これは、従来のインターフェイスに代わる音声インターフェイスを提供し、質問と回答を処理する多くの企業のバックエンドとして機能します。 これは、名前を尋ねてシステムに複数のシステムを照会させるだけでテレビ番組を見るなど、さまざまなアプリケーションに使用できます。 (AmazonのFire TVにはこれらの機能がいくつかありますが、ケーブルセットトップボックスとは統合されていませんが、Expect Labsの投資家の1人はケーブル会社Liberty Globalです。)

CEOのTim Tuttleは、MindMeldはほとんどのデバイスですでに利用可能な音声認識を使用する傾向があり、代わりに自然言語の理解と利用可能な情報の知識グラフの構築に焦点を当てていると説明しました。 彼は、同社が複数のソースからのより多くの情報を含むようにシステムを拡張し、ほとんどのそのようなシステムの一部である情報の異なるカテゴリの階層を分解しようとしていると言いました。 質問を本当に理解するということは、さまざまなカテゴリーの意図を理解できることを意味します、と彼は言いました。

多くの参加者から聞いたことの1つは、すべてのWeb検索の約10%が今やintelligence報機関を介して行われていることを示唆する統計です。 (AIのパイオニアであるAndrew Ngは、昨年これがBaiduでの音声検索に当てはまると言い、数人はこれがGoogleでも当てはまると言いましたが、直接確認したことはありません。)

楽しみにして、Opus Researchのミラーは、まだやるべきことがたくさんあると言いました。 システムの基本的な精度には、特にあなたの言うことから意味すること、結果として何をすべきかへの移行において、特に改善の余地があります。 彼はカンファレンスでゼロックスPARC CEOのスティーブン・フーバーからの講演に言及しました。今日のシステムは私たちの意味を理解するのに最大90パーセント正確であると言いましたが、システム。 ミラー氏は、システムが通話相手を知っている場合、より良い結果が得られるため、より良いパーソナライズの余地があると述べました。 たとえば、彼は、あなたがログインしているためにFacebookがシステムを使用している人を知っていると指摘しました。 より多くのエージェントでシームレスにこれを行うことがより重要になると述べました。

それは確かに魅力的なカテゴリであり、私たち全員が私たちの電話やコンピューターと話したり、あまり人間ではないエージェントとやり取りしたりすることにもっと多くの時間を費やすことになると思います。 最近のコンピューティングでは、これが最も興味深い傾向の1つです。

インテリジェントアシスタント:siriの後に来るものは?