ビデオ: ã€?放ç?«ã€‘è?–誕節跟Youtuber們交æ?›ç¦®ç‰©å¥½å?¯æ€• ft.安啾ã€?é ‘Gameã€?å°Šã€?鬼鬼ã€?æ (十一月 2024)
ビッグデータ革命は、企業の働き方を再定義しました。 データがすべてを支えています。 Apache HadoopやSparkなどのオープンソースツールにより、膨大な量のデータをリアルタイムで簡単に収集、処理、保存できるようになっただけでなく、ビジネスインテリジェンス(BI)とデータ視覚化ツールが分析の表面を切り開くのに役立ちましたそして、そのデータを変換して、中核的なビジネス上の意思決定を知らせます。
しかし、ビッグデータとBIテクノロジーがどれほど進化してきたにせよ、私たちは常に膨大な量の絶え間なく合成するデータを扱っており、分析するための適切なポイントを見つけることは、終わりのない干し草の山に飛び込むように感じます。 ソリューション? haystackを再設計します。
新しいタイプのクラウドベースのエンタープライズアーキテクチャであるデータレイクを入力して、データをよりスケーラブルな方法で構造化し、実験を容易にします。 厳格なスキーマやサイロに縛られるのではなく、探索や操作に対してよりオープンになります。 Forrester Researchのエンタープライズアーキテクチャ研究者であるNasry Angelは、企業がデータレイクアーキテクチャを採用している理由を説明しました。
「それは決まり文句に聞こえますが、効果的な最新のデータ環境について考えるとき、それははるかに実験的なものです」とエンジェルは言いました。 「迅速に学習し、迅速に失敗できるようにする必要があります。これまで、特に倉庫でのデータ管理は、小数点以下に至るまで品質に関するものでした。すべてが完全に正確で真であることを確認します。ピクセルの完全なレポートを生成し、5, 000人のユーザーに送信します。
「今日では、より科学的なプロセスです。テストしたいデータについて仮説を立てて、データを使って遊んだり、ミックスしたりマッチさせたりして、何かを試して製品化する前にさまざまなことを試してみたいと思います。 」
データレイクの内容
データレイクはストレージリポジトリです。 ただし、データウェアハウスや「データマート」とは異なり、エンジェルは、データレイクはスキーマに依存するデータウェアハウスの固定構造化環境ではなく、複数のノードに分散されると説明しました(以下の図を参照)。
「データレイクでは、読み取り時にスキーマを実行する必要があるデータウェアハウスに対して、データを記述するときにスキーマを適用できます。したがって、データウェアハウスでは、コンテキストを理解する前にデータをモデル化する必要があります。エンジェルは言った。
出典: JustOne Database、Inc. (上の図をクリックすると、全体像が表示されます。)
「通常、ウェアハウスでは、ITプロフェッショナルが最高のデータモデルであると考えているものを考え出します。データの最終的なユーザーではありません。それが生産性とビジネス価値をどのように妨げるかをすぐに見ることができます」 。 「最終的に、あなたとビジネスユーザーは、データの構造について決定を下す必要があります。データレイクでは、まず何があるかを調べて理解し、次にそれを最適に整理するためのスキーマを把握できます。」
データレイクは通常Hadoop上に構築され、HortonworksやMapRなどのエンタープライズHadoopディストリビューションはデータレイクアーキテクチャを提供します。 また、企業はAmazon Web Services(AWS)やMicrosoft Azureを含むInfrastructure-as-a-Service(IaaS)クラウドを使用してデータレイクを構築できます。 AmazonのElastic Compute Cloud(EC2)はデータレイクをサポートし、Microsoftはリアルタイムデータを保存および分析するための専用のAzure Data Lakeプラットフォームを備えています。 エンジェル氏は、データレイクは、ビジネスが合理的な自信をもって投資を開始できるビッグデータ空間内で成熟しつつあると述べました。
「数年前、Hadoopは大流行していました。今、Hadoopがコモディティ化されるところまで来ています」とAngel氏は言います。 「問題はHadoopかどうかではなく、いつ、何をするかです。データレイクのような共通の場所にデータを取得したら、Hadoopの上にどのような種類のアプリケーションを構築しますか?この時点では、特定のビジネスニーズを満たすアプリケーションを開発するためにデータを使用することです。」
データリザーバーの上に構築する
ビッグデータの最もエキサイティングな部分は、ロックを解除する可能性のすべてです。 さまざまなデータの組み合わせとビジネス成果を試して実験できるデータレイクを設定したら、革新的な分析手法を重ねることができます。
機械学習(ML)アルゴリズムはすでにクラウドインフラストラクチャの一部になりつつあり、研究者はディープラーニングテクニックとニューラルネットワークを継続的に改善して、複雑なパターンを認識するマシンとデータシステムを訓練しています。 予測分析は、ますます多くのデータツールとエンタープライズプラットフォームに組み込まれており、顧客関係管理(CRM)の予測スコアリングや自動セグメンテーションから、金融市場の動向の特定、機械の機械的故障の予防的捕捉まで、すべてに使用されています。
これらはすべて、ビジネスが必要に応じて供給およびスケーリングするデータストアの上で行われます。 エンジェルは、データレイクが組織の機能を変えるという実世界のユースケースのいくつかについて話しました。
「私はさまざまな雑誌のポートフォリオを持っている出版会社と仕事をしていました。弁護士向けの出版物、会計士向けの出版物、コンサルタント向けの出版物などがあり、それぞれの出版物には独自のデータウェアハウスがありました。サイロ」とエンジェルは説明しました。
「だから私たちはすべてのデータをウェアハウスから抽出し、データレイクに入れました。データレイクはサイロを越えて見ることができました。彼らはデータを探索し、データ発見を行うことができました。すべての雑誌の顧客がサイバーセキュリティに興味を示しました。サイバーセキュリティの読者はこれらのさまざまな役割すべてに強いです。だから彼らは何をしましたか?彼らはサイバーセキュリティを彼らの年次会議のテーマにしました。」
エンジェルが語ったもう1つの例はeコマースです。 別のクライアントであるオンラインアートの小売業者は、大量の情報をデータレイクにダンプし、それをリポジトリとしてだけでなく、ビジネスの洞察をまとめる一種のキャンバスとして使用していました。 小売業者は、トランザクションデータ(注文、請求書、支払いなど)、クリックストリームデータ(各Webサイト訪問者のクリックとページの連続)、小売業者のデータウェアハウスからのデータをすべて湖に持ち込み、それを使用してショッピングカートと戦いました放棄と変換。
「データレイクの上に構築し、それを使用して複雑なビジネスの洞察を定式化したい」とエンジェルは語った。 「アート小売業者は、顧客のクリックストリームデータを確認し、クリックと顧客プロファイルを照合し、トランザクションデータを使用して顧客が過去に購入したものを確認し、その洞察を使用して非常に具体的なメールキャンペーンを実行できました。小売店は2時間後にフォローアップし、「このピカソをチェックアウトしているのを見ました。もう一度見たい場合はこちらのリンクをご覧ください」
データレイクは、あらゆる種類のビジネスユースケースに広く適用されます。 しかし、最高技術責任者(CTO)または最高情報セキュリティ責任者(CISO)がアーキテクチャへの移行を検討しているため、エンジェル氏は、データウェアハウスはまだ完全ではなく、時代遅れではないと強調しました。 クラウドプロバイダーを使用している場合も、カスタムHadoopディストリビューションを使用している場合も、ほとんどの企業組織にとって、企業には依然として両方が必要です。
データレイクは、特定のスキーマにデータを適合させる制限を取り除くことで比類のない洞察へのアクセスを提供し、AWSなどの安価で柔軟なクラウドストレージを使用してスケールアップとダウンを行うことで、総所有コストを大幅に削減します。実際に使用する処理能力の支払い。 データウェアハウスの実行はより高価であり、その結果、ITプロフェッショナルは、データの出入りについてより選択的になります。 しかし、企業の最もミッションクリティカルなデータにとって、それは悪いことではありません。
「データウェアハウスには、セキュリティの面で利点があり、データガバナンスを制御する非常に簡単なツールである」とAngel氏は述べています。 「だから、ミッションクリティカルなものである倉庫にあなたの最も機密性の高い情報を保持したい。しかし、新しいビジネスチャンスや隠れた洞察の発見に関しては、データレイクを活用したい」