目次:
ビデオ: therunofsummer (十一月 2024)
データとビジネスインテリジェンス(BI)は、同じコインの両面です。 ストレージ、処理、および分析の進歩により、大量のデータセットを操作して洞察を引き出すためにデータベースの専門家やデータ科学者である必要がなくなるほど、データが民主化されました。 学習曲線はまだありますが、セルフサービスBIおよびデータ視覚化ツールは、企業が収集したすべてのデータを活用して実用的な分析を行う方法を再定義しています。 ただし、高度な分析を行うBI企業またはデータベース企業と、機械学習(ML)および深層学習モデルのトレーニング専用の人工知能(AI)データベースとの間には違いがあります。
MLアルゴリズムは、今日の多くのソフトウェアのファブリックに組み込まれています。 消費者体験は仮想アシスタントを介してAIと融合しており、ビジネスソフトウェアには、企業の顧客関係管理(CRM)ポートフォリオ全体の下のインテリジェントレイヤーとして機能するSalesforce Einsteinなどの例があります。 GoogleやMicrosoftを含むテクノロジーの巨人たちは、研究だけでなく、AIをゼロから自社のテクノロジーがどのように機能するかを書き直すことで、インテリジェントな未来をさらに推進しています。
トレーニングマシンとディープラーニングモデルの課題の1つは、画像分類や自然言語処理(NLP)などの分野での複雑なパターン認識など、ニューラルネットワークのトレーニングに必要な膨大なデータ量と処理能力です。 したがって、AIデータベースは、企業のAI学習およびトレーニングプロセスを最適化する方法として市場に登場し始めています。 私たちは、独自のAIデータベースを構築したGPUアクセラレーションリレーショナルデータベースプロバイダーのKineticaと、PCMagの常駐BIおよびデータベースエキスパートのPam Bakerに、AIデータベースとは何か、従来のデータベースと比較してどのように機能するかについて説明しました。 さらに重要なことは、誇大広告やマーケティングスピーチを整理して、この新しい技術に真のビジネス価値があるかどうかを判断するための支援を求めたことです。
AIデータベースとは
AI空間の性質は急速に変化しているため、用語の確立が困難になる場合があります。 ML、ディープラーニング、AIなどの用語は、実際にはAIのより大きな傘の下でまだ開発中のテクニックであるにもかかわらず、同じ意味で使用されます。 そのため、Baker氏は、AIデータベースが話す相手によって大きく異なる2つの定義があると言いました。1つは実用的なもの、もう1つはより重要なものです。
「業界では、AIデータベースは完全に自然言語クエリで動作するものであるという、ある種の大まかなコンセンサスがあります。ユーザーインターフェイスは、検索用語やキーフレーズに依存せずに検索できます。ユーザーが必要な情報を使用して、ユーザーがNLPでデータセットを呼び出すことができます」とBaker氏は述べています。 「IBM Watsonがシステムに自然言語クエリを提示できるという非常に限られた議論をすることはできますが、すでにデータに接続し、自分でデータを選択する必要があります。そのため、現時点ではその定義は一筋縄ではいきません。」
より実用的な定義、およびこの説明者の主題は、本質的に専用のデータベースを使用してMLモデルトレーニングを高速化することです。 多くのハイテク企業は、ベンダーがかなりの計算能力を必要とするAIベースの機能をさらに展開するにつれて、新しいハードウェア製品の重い処理負荷を軽減するために専用のAIチップをすでに開発しています。 データ側では、AIデータベースを使用することで、時間とリソースを最適化するためのMLおよび深層学習モデルのトレーニングに関連するボリューム、速度、複雑なデータガバナンスと管理の課題をより適切に解決できます。
画像クレジット:Futurism.comのTodd Jaquith クリックして完全なインフォグラフィックを展開します
「現在、いくつかの異なる戦術を通じてMLトレーニングをスピードアップするための多くの努力があります」とBakerは説明しました。 「1つは、自動化機能がインフラストラクチャを処理し、MLモデルをトレーニングするように、コーディングを行うAI研究者からインフラストラクチャを分離することです。したがって、3か月のような時間を費やす代わりに、30日または30分を見ているかもしれません。 」
Kineticaは、このアイデアをMLおよびディープラーニングモデリング用に最適化された統合データベースプラットフォームに分解します。 AIデータベースは、データウェアハウジング、高度な分析、およびインメモリデータベースの視覚化を組み合わせています。 KineticaのAdvanced Technology Groupの副社長兼プリンシパルソフトウェアエンジニアであるMate Radalj氏は、AIデータベースは数ミリ秒以内に高速で複雑なデータを同時に取り込み、探索、分析、視覚化できる必要があると説明しました。 目標は、コストを削減し、新しい収益を生み出し、MLモデルを統合して、ビジネスがより効率的でデータ主導の意思決定を行えるようにすることです。
「AIデータベースは一般的なデータベースのサブセットです」とRadalj氏は述べています。 「現在、AIデータベースは非常に人気があります。しかし、多くのソリューションは分散コンポーネントを使用しています。Spark、MapReduce、およびHDFSは、メモリ内ではなく常に前後に回転しています。データベースのような要素のコンフルエンスはありません。 CPUとGPUを単一のプラットフォームに緊密に統合してゼロから構築しました。私たちにとっての高レベルの利点は、同じプラットフォームに統合された迅速なターンアラウンドと分析により、モデルベースのトレーニングのプロビジョニングの高速化とハードウェアフットプリントの削減です。 」
AIデータベースの仕組み
実際には、AIデータベースの例がいくつかあります。 Microsoft Batch AIは、Microsoft Azure GPUで実行されるディープラーニングとMLモデルをトレーニングするためのクラウドベースのインフラストラクチャを提供します。 同社には、Azure Data Lake製品もあり、企業やデータサイエンティストが分散アーキテクチャ全体でデータを簡単に処理および分析できるようにします。
別の例として、GoogleのAutoMLアプローチがあります。これは、MLモデルのトレーニング方法を根本的にリエンジニアリングしています。 Google AutoMLはMLモデルの設計を自動化して、特定のデータセットに基づいて新しいニューラルネットワークアーキテクチャを生成し、それらの数千回のテストと反復を行ってより良いシステムをコーディングします。 実際、GoogleのAIは人間の研究者よりも優れたモデルを作成できるようになりました。
「Google AutoMLを見てください。MLでMLコードを記述しているので、人さえいらないのです」とBaker氏は言います。 「これにより、ベンダーが行っていることに極端な違いがあることを知ることができます。一部は高度な分析をMLとして流そうとしていますが、そうではありません。企業は現時点で理解できます。」
それからキネティカがあります。 ベンチャーキャピタル(VC)の資金調達で6, 300万ドルを調達したサンフランシスコに拠点を置く新興企業は、高速なデータの取り込みと分析に最適化された高性能SQLデータベースを提供します。 Kineticaは、Radaljが超並列処理(MPP)分散データベースおよびコンピューティングプラットフォームとして記述したもので、すべてのノードが同じ場所にあるインメモリデータ、CPU、GPUを備えています。
AIデータベースが従来のデータベースと異なるのは、Radalj氏が説明するように、3つのコア要素に帰着します。
- データ取り込みの加速、
- インメモリデータの共存(データベースノード間での並列処理)、および
- データサイエンティスト、ソフトウェアエンジニア、およびデータベース管理者がモデルをより迅速に反復およびテストし、結果を分析に直接適用するための共通プラットフォーム。
これを読んでいるすべての非データベースおよびAIモデルトレーニングの専門家のために、Radaljはこれら3つのコア要素のそれぞれを分解し、AIデータベースが具体的なビジネス価値にどのように結びつくかを説明しました。 リアルタイムストリーミングデータを処理する機能により、企業はAI主導の洞察に対して迅速な行動をとることができるため、データの可用性とデータの取り込みが重要です。
「5分ごとに店舗ごとの販売率を追跡したい小売顧客がいます」とRadalj氏は述べています。 「過去数時間の履歴データに基づいて、在庫を補充してそのプロセスを最適化する必要があるかどうかを予測するためにAIを使用したかったのです。しかし、そのためには、機械駆動型の在庫補充に毎秒600-1200クエリをサポートする必要があります。 「SQLデータベースとAIデータベースであるため、そのレートでデータを取り込むことができます。そのビジネスミッションを達成した結果、アプリケーションのROIが向上しました。」
Bakerは、MLには膨大な量のデータが必要であるため、AIデータベースにとって迅速にデータを取り込むことが非常に重要であることに同意しました。 2番目の要因である「メモリ内データの共局在性」の概念については、もう少し説明が必要です。 インメモリデータベースは、個別のディスクストレージではなくメインメモリにデータを格納します。 特に分析データベースとBIデータベースで、クエリをより高速に処理するためです。 共局在性により、Radaljは、KineticaはCPUとGPUの計算ノードとストレージノードを分離しないと説明しました。
その結果、AIデータベースは、複数の刺激を処理する人間の脳の能力を模倣する並列処理をサポートすると同時に、スケーラブルなデータベースインフラストラクチャ全体に分散されたままです。 これにより、Radaljが「データシッピング」と呼んだものや、異なるデータベースコンポーネント間でデータをやり取りする必要性に起因する、より大きなハードウェアフットプリントが防止されます。
「一部のソリューションでは、IBM Symphonyのようなオーケストレーターを使用してさまざまなコンポーネントでの作業をスケジュールしますが、Kineticaは、データシッピングを最小限に抑える高度な最適化により、同じ場所にあるリソースに対する機能シッピングを強調します」と述べています。 「この共局在性は、特に大規模なデータセットでの非常に同時の重いクエリに対して、優れたパフォーマンスとスループットに役立ちます。」
実際のデータベースハードウェアに関して、KineticaはNvidiaと提携しています。NvidiaはAI GPUのラインナップを拡大しており、Intelとの機会を模索しています。 また、Radaljは、GoogleのTensor Processing Units(TPU)などの新しいAIハードウェアとクラウドベースのインフラストラクチャに注目していると述べました。
最後に、統一されたモデルトレーニングプロセスのアイデアがあります。 AIデータベースは、取り込みと処理の高速化の利点が、企業のMLおよび深層学習の取り組みのより大きなビジネス指向の目標に役立つ場合にのみ有効です。 Radaljは、KineticaのAIデータベースを、データサイエンス主導のモデルホスティングを実行する「モデルパイプラインプラットフォーム」と呼んでいます。
これはすべて、より正確なMLモデルを開発するためのテストと反復の高速化に役立ちます。 この点について、ベイカーは、統一された方法で協力することで、トレーニングプロセスのすべてのステップを継続的に再発明するのではなく、MLまたはディープラーニングモデルのトレーニングに取り組んでいるすべてのエンジニアと研究者が、機能するものを組み合わせることで、より速く反復するのに役立つと述べた Radalj氏によると、目標は、バッチの取り込み、ストリーミング、クエリの高速化により、BIにすぐに適用できるモデル結果を生成するワークフローを作成することです。
「データサイエンティスト、ソフトウェアエンジニア、およびデータベース管理者は、データサイエンス自体、ソフトウェアプログラムの作成、SQLデータモデルとクエリについて明確に作業を説明できる単一のプラットフォームを持っています」とRadalj氏は述べています。 「一般的なプラットフォームの場合、人々はこれらのさまざまなドメインでよりきれいに連携します。MLとディープラーニングを実行するよりも多くの場合、目標は分析の結果と一緒に係数と変数を使用することです。 、得点などの出力に使用したり、有用なものを予測したりします。」
誇大広告か現実か?
AIデータベースの最終的な価値は、少なくともKineticaが定義する方法では、計算とデータベースのリソースを最適化することです。 これにより、より良いMLおよびディープラーニングモデルを作成し、それらをより速く、より効率的にトレーニングし、AIがビジネスにどのように適用されるかを明確に維持できます。
ラダルジは、フリート管理またはトラック運送会社の例を挙げました。 この場合、AIデータベースは、車両群からのリアルタイム情報の膨大なストリームを処理できます。 次に、その地理空間データをモデル化し、それを分析と組み合わせることにより、データベースはトラックを動的に再ルーティングし、ルートを最適化できます。
「迅速にプロビジョニング、プロトタイプ、およびテストを行うのが簡単です。「モデリング」という言葉はAIで使用されますが、すべて異なるアプローチ(データが多いほど良いです)を繰り返し実行し、テスト、比較、最高のモデルを考え出す」とRadaljは語った。 「これまで以上に多くのデータがあるため、ニューラルネットワークに生命が与えられました。そして、それを介して計算できることを学んでいます。」
最終的に、Kineticaの同じ場所にあるデータベースとモデルパイプラインプラットフォームは、尋ねる人に応じてさまざまなことを意味する可能性のある空間における1つのアプローチにすぎません。 ベイカー氏によると、まだ発展途上で実験的な市場でのバイヤーにとっての課題は、AIデータベースベンダーが売り込んでいるものを正確に把握することです。
「ビジネスコンセプトとして、ディープラーニング、ML、およびそのすべては堅実なコンセプトです。私たちが取り組んでいるのは、まだ解決していなくても解決可能な技術的な問題です」とBaker氏は言います。 「それは間違いなくそうではないので、これが成熟した空間であると言うことではありません。MLとして売り込まれたものがそうでないかもしれないので、私は「買い手注意」と言います。
AIデータベースは今、すべて誇大宣伝されているのか、それともビジネスが進むべき場所の重要なトレンドを表しているのかについて、Bakerは両方とも少し述べています。 彼女は、マーケティング用語としてのビッグデータは今では好意的ではないと言いました。 Baker氏は、高度なデータ駆動型分析と真のMLおよびディープラーニングアルゴリズムとの間に市場の混乱が生じていると述べました。 とにかく、MLモデリング用のデータベースであろうと、ポップカルチャーによって夢想された自己認識AIであろうと、それはすべてデータで始まり、データで終わります。
「データは時間の経過するまでビジネスで使用されます。ビジネスを行うための中心的な存在です」とBaker氏は言います。 「サイエンスフィクションの観点から話をするとき、AIは自己実現した知能です。それは、特異点やロボットが世界を支配することについて話し始めるときです。それが起こるかどうかはわかりません。スティーブン・ホーキングに。」