ビジネス ビッグデータの基本:データガバナンス計画の作成方法

ビッグデータの基本:データガバナンス計画の作成方法

ビデオ: --Ó--º—Ë—Ä--∑--ª--∞—È --∫—Ä--Æ—Û —Å--Æ--Ω—Ü--∞ (十一月 2024)

ビデオ: --Ó--º—Ë—Ä--∑--ª--∞—È --∫—Ä--Æ—Û —Å--Æ--Ω—Ü--∞ (十一月 2024)
Anonim

現代のビジネスにおけるデータの役割について多くのことを書いてきました。 新興企業や中小企業(SMB)から大企業まで、あらゆる規模の企業がこれまで以上にデータの洞察と分析にアクセスできます。 これは、セルフサービスビジネスインテリジェンス(BI)とデータ視覚化ツールの登場のおかげです。

ただし、BIツールを使用したり、データセットに対して予測分析を実行したりする前に、多くの要因を取り除いておく必要があります。 ビッグデータとは何か(ヒント:水晶玉ではない)、およびエンタープライズデータアーキテクチャ内のデータストレージ、組織、権限、およびセキュリティの管理方法を理解することから始めます。 これがデータガバナンスの出番です。企業内でガバナンスを確保するプロセスは、話し相手によって異なります。 ただし、データガバナンスは、中核をなすものであり、包括的なデータセキュリティのベストプラクティスと結びついた、データの信頼と説明責任に関するものです。

市場で最大のエンタープライズHadoopベンダーの2つであるHortonworksとMapRに話を聞きました。 Hortonworksの最高技術責任者Scott GnauとMapRのデータおよびアプリケーション担当上級副社長Jack Norrisは、それぞれ組織にとってデータガバナンスの意味を説明しました。 彼らは、大企業の複雑なデータアーキテクチャおよび組織階層内でデータガバナンスを確保するという複雑な課題に取り組む方法について議論しました。

まさに データガバナンスとそれが必要な理由

ガバナンスとは、プライバシーとセキュリティの両方を維持しながら、できるだけ少ないエラーでエンタープライズデータがデータベースで承認、整理、および許可されるようにすることです。 特に、データがどこにどのように格納され処理されるかの現実が絶えず流動的である場合は、バランスを取るのは容易ではありません。 MapRのノリスは、企業がより高いレベルからデータガバナンスを検討し、より大きなデータパイプラインに焦点を当てる必要がある理由を説明しました。

「私たちが扱っているビッグデータの多様性と速度のスケーリングを開始するとき、データガバナンスが必要になりますが、それはこのより広い文脈にあります。あなたが持っているデータ、それにアクセスできる人、あなたはどうですかそのデータの系統を長期にわたって管理していますか?」 ノリスは言った。 「データガバナンスの観点からは、システム内に存在するさまざまな段階のデータをスナップショット化できるため、パイプラインの任意の時点に戻ることができます。データプラットフォームに監査機能とアクセス制御を構築することです。財務データセットを検討しているビジネスマネージャーであろうと、生のアップストリームデータを扱うデータサイエンティストであろうと、データの発見と分析は透過的です。」

出典:Rimes。 画像をクリックすると、全体が表示されます。

HortonworksのGnauも同様の点に焦点を合わせました。 データウェアハウスを扱う場合でも、データレイクアーキテクチャを扱う場合でも、データガバナンスは対立する力のバランスを取ることです。 イノベーションを推進し、洞察を引き出すための自由なデータアクセスと、そのデータをエンドツーエンドで同時に保護するためのきめ細かな権限とプライバシーについてです。

「データ空間における従来のガバナンスの旧世界を比較対照します。それは少し簡単でした」とグナウは言いました。 「かつてデータは職務またはアプリケーションによって明確に定義されていました。新しい世界では、データサイエンティストができるだけ多くのデータにアクセスできるときに最大の価値を得ることができます。

「それは、ガバナンスへのアプローチ方法にまったく新しいパラダイムをもたらしています」とグナウは付け加えました。 「この新しい世界では、ガバナンスとセキュリティのトピックを一緒に扱う必要があると考えています。多くの企業は、データサイエンティストがこれらの新しいユースケースを効果的に見つけられるようにするためにそれを乗り越えようとしています。 、セキュリティ、プライバシー、ガバナンスを処理する方法を理解します。これらはすべて、最終的な観点からも企業の評判の観点からも重要です。」

エンタープライズデータガバナンスプランは、これらの対立するすべての力をどのように包含し、満たすことを想定していますか? 一度に1ステップずつ、各要件に体系的に取り組むことにより。

データガバナンス計画を構築する方法

Hortonworks、MapR、およびClouderaは、Hadoopスペースの3つの最大の独立したプレーヤーです。 データガバナンスに関しては、企業には独自の影響力があります。 MapRはこのテーマに関する多数のホワイトペーパーをリリースし、Converged Data Platform全体でデータガバナンスを構築しました。一方、Hortonworksは独自のデータセキュリティおよびガバナンスソリューションを持ち、2015年にData Governance Initiative(DGI)を共同設立しました。 -Hadoopにオープンデータガバナンスフレームワークを提供するApache Atlasプロジェクトをソース。

しかし、各ベンダーが包括的なデータガバナンスとセキュリティ戦略をどのように作成するかということになると、GnauとNorrisはどちらも同様の方針に沿って話をしました。 以下は、HortonworksとMapRが企業がデータガバナンスプランを構築する際に留意することを推奨する組み合わせた手順です。

ビッグワン:詳細な データアクセスと認証

両社は、きめ細かな制御なしでは効果的なデータガバナンスを実現できないことに同意します。 MapRはこれを主にAccess Control Expressions(ACE)によって実現します。 Norrisが説明したように、ACEはグループ化とブールロジックを使用して、ロールベースのアクセス許可と可視性の設定により、柔軟なデータアクセスと承認を制御します。

彼はそれをガートナーのモデルのように考えると言いました。 下端のY軸には厳格なガバナンスと低い俊敏性があり、上端のX軸には高い俊敏性と低いガバナンスがあります。

「低レベルでは、機密データを難読化することで保護します。最上位では、データサイエンティストとBIアナリストとの間で機密契約を結んでいます」とノリス氏は言います。 「マスキング機能とさまざまなビューを使用してこれを行う傾向があり、生データを可能な限り下部にロックダウンし、管理者に幅広い可視性を提供するまで徐々にアクセスを提供します。適切な人々へのアクセス?

「今日、アクセス制御リストを見ると、「エンジニアリングの誰もがこれにアクセスできる」と言うでしょう」とノリスは付け加えました。 「しかし、IT内のプロジェクトの少数の厳選されたディレクターにアクセスを許可する場合、または個人以外の全員にアクセスを許可する場合は、特別なグループを作成する必要があります。アクセスを見るには非常に複雑で複雑な方法です」

Norrisによると、さまざまなレベルおよびグループへのアクセス権の付与が行われます。 「ACEを、ファイル、テーブル、ストリームなどを介してデータにアクセスできるさまざまな方法と組み合わせ、データの個別のコピーを使用せずにビューを実装しました。したがって、同じ生データとビューのビューを提供しています。さまざまなレベルのアクセス権を持つことができます。これにより、より直接的でより統合されたセキュリティが得られます。」

Hortonworksは、同様の方法で詳細なアクセスを処理します。 Gnauによると、ガバナンス用のApache AtlasとApache Rangerを統合することにより、企業は1枚のガラスを通して企業レベルで認可を処理します。 重要なのは、タグベースのポリシーを使用して、データベースおよび特定のメタデータタグへのアクセスをコンテキストに応じて付与できることです。

「誰かがデータベースに入ったら、関連するアクセス権を持つべきデータをガイドすることです」とグナウは言いました。 「オブジェクトレベルでのRangerのセキュリティポリシーは、きめ細かく、その中間のどこでも処理できます。セキュリティをガバナンスに結びつけることは、物事が本当に興味深いものになるところです。

「大規模な組織で拡張するには、これらのロールをガバナンスとメタデータのタグ付けと統合する必要があります」とGnauが追加しました。 「シンガポールからログインしている場合は、おそらく現地のプライバシー法や企業戦略に基づいたさまざまなルールがあります。企業が全体的なトップダウンの観点からこれらのルールを定義、設定、理解したら、コアプラットフォーム内ですべてを実行する際の特定のルールセット。」

出典:IBM Big Data&Analytics Hub。 画像をクリックすると、全体が表示されます。

2.境界セキュリティ、データ保護、統合認証

エンドポイントセキュリティなしではガバナンスは起こりません。 グナウ氏は、既存の認証システムおよび標準と統合するデータの周囲に適切な境界とファイアウォールを構築することが重要だと述べました。 ノリスは、認証に関しては、企業が実証済みのシステムと同期することが重要であることに同意しました。

「認証とは、LDAP、Active Directory、およびサードパーティのディレクトリサービスとの統合方法に関するものです」とNorris氏は述べています。 「Kerberosのユーザー名とパスワードもサポートしています。重要なことは、個別のインフラストラクチャ全体を作成することではなく、既存の構造と統合し、Kerberosなどのシステムを活用することです。」

3.データの暗号化とトークン化

境界をセキュリティで保護し、付与するすべての詳細なデータアクセスを認証した後の次のステップ:ファイルと個人を特定できる情報(PII)がデータパイプラインを通じてエンドツーエンドで暗号化およびトークン化されていることを確認します。 Gnauは、HortonworksがPIIデータを保護する方法について説明しました。

「境界を越えてシステムにアクセスできるようになったら、PIIデータを保護できることは非常に重要です」とGnau氏は述べています。 「誰がデータにアクセスできるかに関係なく、そのデータを暗号化してトークン化する必要があります。そうすれば、そのPIIデータを公開せずに必要な分析を実行できます。」

暗号化されたデータに安全にアクセスする方法については、MapRのNorris氏は、バックアップや災害復旧(DR)などのユースケースにも留意することが重要であると説明しました。 彼は、増大するファイルとディレクトリのクラスターにガバナンスポリシーを適用できる論理ボリュームと呼ばれるMapRの概念について説明しました。

「最低レベルでは、MapRはDRのWANレプリケーションと、ディレクトリまたはボリュームごとに異なる頻度で設定できるすべてのデータの時間整合性のあるスナップショットを設計しました」とNorris氏は述べています。 「データガバナンスだけではなく、ディレクトリを備えた物理クラスターを使用できます。論理ボリュームの概念は、データ保護と頻度を制御しながら物事をグループ化する非常に興味深い管理単位であり、IT管理者のデータのもう1つの矢印ですガバナンスの震え。」

4.継続的な監査と分析

より広いガバナンスの図を見ると、HortonworksとMapRの両方が、戦略は監査なしでは機能しないと言いました。 プロセスのすべてのステップに対するそのレベルの柔軟性と説明責任は、単にポリシーとアクセス制御を設定して最善を期待するのではなく、ITがデータを実際に「管理」することを可能にするものです。 また、企業がどのようにデータとデータの管理と分析に使用するテクノロジーが日々変化しているのかを把握する環境で、戦略を最新の状態に保つ方法でもあります。

「最新のガバナンス戦略の最後の部分は、ロギングとトラッキングです」とGnau氏は述べています。 「私たちはビッグデータとIoTの初期段階にあり、戦略を更新する必要がある場合に先手を打つために、アクセスを追跡し、データのパターンを認識することが重要です。」

ノリスは、監査と分析はJa​​vaScript Object Notation(JSON)ファイルの追跡と同じくらい簡単にできると述べました。 すべてのデータを追跡して分析するだけの価値があるわけではありませんが、あなたのビジネスは、どちらが重要かを知ることはできません。ゲームを変える洞察または危機が発生し、監査証跡を実行する必要があるまで

「すべてのJSONログファイルは分析用に開かれ、JSONファイルをスキーマで照会するApache Drillがあるため、メタデータ分析を設定するための手動のITステップではありません」とNorris氏は述べています。 「すべてのデータアクセスイベントとすべての管理アクションを含めると、幅広い分析が可能になります。」

5.統合データアーキテクチャ

最終的に、エンタープライズデータガバナンス戦略を監督するテクノロジーオフィサーまたはIT管理者は、詳細なアクセス、認証、セキュリティ、暗号化、および監査の詳細を考慮する必要があります。 しかし、技術責任者やIT管理者はそこでやめるべきではありません。 むしろ、その人は、これらの各コンポーネントがより大きなデータアーキテクチャにどのように取り込まれるかについても考えるべきです。 また、データ収集とストレージからBI、分析、サードパーティサービスに至るまで、そのインフラストラクチャがどのようにスケーラブルで安全である必要があるかを考える必要があります。 グナウ氏は、データガバナンスは技術そのものと同じくらい戦略と実行を再考することだと述べた。

1枚のガラスまたはセキュリティルールのコレクションを超えています」とGnau氏は述べています。 「これらの役割を作成し、プラットフォーム全体とそこに取り込むすべてのツールで同期する単一のアーキテクチャです。安全に管理されたインフラストラクチャの美しさは、新しい方法を作成する俊敏性です。各プラットフォームレベル、またはハイブリッドクラウド環境では、ルールの実装方法を理解するための単一の参照ポイントがあります。すべてのデータは、このセキュリティとガバナンスの層を通過します。」

ビッグデータの基本:データガバナンス計画の作成方法