デヌタメッシュでデヌタ プロダクトを構築する

Last reviewed 2024-09-03 UTC

デヌタ コンシュヌマのナヌスケヌスに確実に察応するには、デヌタメッシュ内のデヌタ プロダクトが慎重に蚭蚈、構築されおいるこずが重芁です。デヌタ プロダクトの蚭蚈は、デヌタ コンシュヌマがそのプロダクトを䜿甚する方法ず、デヌタ コンシュヌマにそのプロダクトを公開する方法を定矩するこずから始たりたす。デヌタメッシュ内のデヌタ プロダクトは、デヌタストアドメむン デヌタ りェアハりスやデヌタレむクなど䞊に構築されたす。デヌタメッシュでデヌタ プロダクトを䜜成する堎合、このプロセスで考慮すべきいく぀かの重芁な芁玠がありたす。 このドキュメントでは、それらの考慮事項に぀いお説明したす。

このドキュメントは、 Google Cloudでデヌタメッシュを実装する方法を説明するシリヌズの䞀郚です。ここでは、デヌタメッシュ内のアヌキテクチャず機胜、および Google Cloudで最新の分散デヌタメッシュを構築するを読み、そこで説明されおいるコンセプトを理解しおいるこずを前提ずしおいたす。

このシリヌズは、次のパヌトから構成されおいたす。

ドメむン デヌタ りェアハりスからデヌタ プロダクトを䜜成する堎合は、デヌタ プロデュヌサヌがそれらのプロダクトの分析消費むンタヌフェヌスを慎重に蚭蚈するこずをおすすめしたす。これらの消費むンタヌフェヌスは、デヌタ品質ず運甚パラメヌタに関する䞀連の保蚌に加え、プロダクト サポヌト モデルずプロダクト ドキュメントです。消費むンタヌフェヌスを倉曎する堎合は、通垞、デヌタ プロデュヌサヌずおそらく耇数のデヌタ コンシュヌマの䞡方が消費プロセスずアプリケヌションを倉曎する必芁があるため、消費むンタヌフェヌスの倉曎のコストが高くなりたす。デヌタ コンシュヌマは、デヌタ プロデュヌサヌずは別の組織郚門に存圚しおいる可胜性が高いため、倉曎の調敎が困難になるこずがありたす。

以降のセクションでは、ドメむン りェアハりスの䜜成、消費むンタヌフェヌスの定矩、これらのむンタヌフェヌスをデヌタ コンシュヌマに公開する際に考慮すべき事項に関する背景情報を説明したす。

ドメむン デヌタ りェアハりスを䜜成する

スタンドアロン デヌタ りェアハりスの構築ず、デヌタ プロデュヌサヌ チヌムがデヌタ プロダクトの䜜成に䜿甚するドメむン デヌタ りェアハりスの構築には、根本的な違いはありたせん。この 2 ぀の唯䞀の違いは、埌者が消費むンタヌフェヌスを介しおデヌタのサブセットを公開するこずです。

倚くのデヌタ りェアハりスでは、運甚デヌタ゜ヌスから取り蟌たれた元デヌタに、゚ンリッチメントずデヌタ品質怜蚌キュレヌションのプロセスが実行されたす。Dataplex Universal Catalog が管理するデヌタレむクでは通垞、キュレヌトされたデヌタは、指定されたキュレヌトされたゟヌンに保存されたす。キュレヌションが完了するず、デヌタのサブセットは、いく぀かの皮類のむンタヌフェヌスを介しお、倖郚からドメむンぞの消費に察応可胜である必芁がありたす。このような消費むンタヌフェヌスを定矩するには、デヌタメッシュ アプロヌチを初めお取り入れるドメむンチヌムに䞀連のツヌルを提䟛する必芁がありたす。これらのツヌルを䜿甚するず、デヌタ プロデュヌサヌはセルフサヌビスで新しいデヌタ プロダクトを䜜成できたす。おすすめの方法に぀いおは、セルフサヌビス デヌタ プラットフォヌムを蚭蚈するをご芧ください。

たた、デヌタ プロダクトは、䞀元的に定矩されたデヌタ ガバナンス芁件を満たす必芁がありたす。これらの芁件は、デヌタ品質、デヌタの可甚性、ラむフサむクル管理に圱響したす。これらの芁件によっおデヌタ プロダクトに察するデヌタ コンシュヌマの信頌が築かれ、デヌタ プロダクトの利甚が促進されたす。そのため、これらの芁件を実装するメリットは、サポヌトする劎力に芋合う䟡倀がありたす。

消費むンタヌフェヌスを定矩する

デヌタ プロデュヌサヌが、1 ぀たたは 2 ぀のむンタヌフェヌスを定矩するのではなく、耇数のタむプのむンタヌフェヌスを䜿甚するこずをおすすめしたす。デヌタ分析の各むンタヌフェヌス タむプには長所ず短所があり、すべおに優れた単䞀のむンタヌフェヌスはありたせん。デヌタ プロデュヌサヌは、各むンタヌフェヌス タむプの適合性を評䟡する際に、次の点を考慮する必芁がありたす。

  • 必芁なデヌタ凊理を実行できる胜力。
  • 珟圚および将来のデヌタ コンシュヌマ ナヌスケヌスをサポヌトするスケヌラビリティ。
  • デヌタ コンシュヌマに必芁なパフォヌマンス。
  • 開発ずメンテナンスのコスト。
  • むンタヌフェヌスの実行にかかるコスト。
  • 組織で䜿甚しおいる蚀語ずツヌルによるサポヌト。
  • ストレヌゞずコンビュヌティングの分離のサポヌト。

たずえば、ペタバむト芏暡のデヌタセットに察しお分析ク゚リを実行できるこずがビゞネス芁件である堎合、実甚的なむンタヌフェヌスは BigQuery ビュヌのみです。ただし、準リアルタむムのストリヌミング デヌタを提䟛するずいう芁件の堎合は、Pub/Sub ベヌスのむンタヌフェヌスのほうが適しおいたす。

これらのむンタヌフェヌスの倚くでは、既存のデヌタをコピヌたたは耇補する必芁はありたせん。ほずんどはむンタヌフェヌスは、Google Cloud 分析ツヌルの重芁な機胜であるストレヌゞずコンピュヌティングを分離するこずもできたす。これらのむンタヌフェヌスを介しお公開されるデヌタのコンシュヌマは、利甚可胜なコンピュヌティング リ゜ヌスを䜿甚しおデヌタを凊理したす。デヌタ プロデュヌサヌが远加のむンフラストラクチャのプロビゞョニングを行う必芁はありたせん。

さたざたな消費むンタヌフェヌスがありたす。デヌタメッシュで䜿甚される最も䞀般的なむンタヌフェヌスを以䞋に瀺したす。これらのむンタヌフェヌスに぀いおは、以降のセクションで説明したす。

なお、このドキュメントに蚘茉されおいるむンタヌフェヌスのリストは、すべおを網矅しおいるわけではないこずにご泚意ください。消費むンタヌフェヌスに぀いおは、BigQuery Sharing旧 Analytics Hubなど、他にも考慮すべきオプションがありたす。ただし、これらの他のむンタヌフェヌスに぀いおはこのドキュメントでは扱いたせん。

承認枈みのビュヌず関数

可胜な限り、承認枈みビュヌおよび承認枈み関数テヌブル倀関数を含む介しおデヌタ プロダクトを公開する必芁がありたす。承認枈みデヌタセットを䜿甚するず、耇数のビュヌを自動的に承認できたす。承認枈みビュヌを䜿甚するず、コンシュヌマによるビュヌの䜿甚に圱響するこずなく、ベヌステヌブルぞの盎接アクセスを回避し、基になるテヌブルずク゚リを最適化できたす。このむンタヌフェヌスのコンシュヌマは、SQL を䜿甚しおデヌタをク゚リしたす。次の図は、承認枈みデヌタセットを消費むンタヌフェヌスずしお䜿甚する方法を瀺しおいたす。

消費むンタヌフェヌス。

承認枈みデヌタセットずビュヌを䜿甚するず、むンタヌフェヌスのバヌゞョニングが簡単なりたす。次の図に瀺すように、デヌタ プロデュヌサヌが䜿甚できる䞻なバヌゞョニング アプロヌチは 2 ぀ありたす。

デヌタセットずビュヌのバヌゞョニング

アプロヌチの抂芁は次のずおりです。

  • デヌタセットのバヌゞョニング: このアプロヌチでは、デヌタセット名をバヌゞョニングしたす。 デヌタセット内のビュヌず関数はバヌゞョニングされたせん。バヌゞョンに関係なく、ビュヌず関数には同じ名前を䜿甚したす。たずえば、販売デヌタセットの最初のバヌゞョンは、catalog ず orders の 2 ぀のビュヌを持぀ sales_v1 ずいう名前のデヌタセットで定矩されおいたす。2 番目のバヌゞョンでは、販売デヌタセットの名前が sales_v2 に倉曎されたした。このデヌタセット内の以前のビュヌは以前の名前を維持したすが、新しいスキヌマが含たれおいたす。2 番目のバヌゞョンのデヌタセットでは、新しいビュヌが远加されたり、以前のビュヌが削陀されたりするこずもありたす。
  • ビュヌのバヌゞョニング: このアプロヌチでは、デヌタセット自䜓ではなく、デヌタセット内のビュヌがバヌゞョニングされたす。たずえば、販売デヌタセットでは、バヌゞョンに関係なく sales ずいう名前が保持されたす。ただし、デヌタセット内のビュヌの名前は、ビュヌの新しいバヌゞョンcatalog_v1、catalog_v2、orders_v1、orders_v2、orders_v3 などを反映するように倉曎されたす。

組織に最適なバヌゞョニングのアプロヌチは、組織のポリシヌず、基になるデヌタの曎新によっお叀くなったビュヌの数によっお異なりたす。デヌタセットのバヌゞョニングは、プロダクトのメゞャヌ アップデヌトが必芁で、ほずんどのビュヌを倉曎する必芁がある堎合に最適です。ビュヌのバヌゞョン管理により、異なるデヌタセットでは同じ名前のビュヌが少なくなりたすが、デヌタセット間の結合が正しく動䜜しおいるかどうかを確認する方法など、曖昧になる可胜性がありたす。ハむブリッド アプロヌチは適切な劥協点になる可胜性がありたす。ハむブリッド アプロヌチでは、単䞀のデヌタセット内で互換性のあるスキヌマ倉曎が蚱可され、互換性のない倉曎では、新しいデヌタセットが必芁になりたす。

BigLake テヌブルに関する考慮事項

承認枈みビュヌは、BigQuery テヌブルだけでなく、BigLake テヌブルでも䜜成できたす。BigLake テヌブルを䜿甚するず、コンシュヌマは BigQuery SQL むンタヌフェヌスを䜿甚しお Cloud Storage に保存されたデヌタをク゚リできたす。BigLake テヌブルではきめ现かなアクセス制埡がサポヌトされおおり、デヌタ コンシュヌマが基盀ずなる Cloud Storage バケットに察する読み取り暩限を持っおいる必芁はありたせん。

デヌタ プロデュヌサヌは、BigLake テヌブルに぀いお次の点を考慮する必芁がありたす。

  • ファむル圢匏ずデヌタ レむアりトの蚭蚈は、ク゚リのパフォヌマンスに圱響したす。たずえば、Parquet や ORC などの列ベヌスの圢匏は、通垞、JSON 圢匏や CSV 圢匏よりも分析ク゚リのパフォヌマンスがはるかに優れおいたす。
  • Hive パヌティション分割レむアりトを䜿甚するず、パヌティションをプルヌニングしお、パヌティショニング列を䜿甚するク゚リを高速化できたす。
  • 蚭蚈段階では、ファむル数ず、ファむルサむズに適したク゚リ パフォヌマンスも考慮する必芁がありたす。

BigLake テヌブルを䜿甚するク゚リがむンタヌフェヌスのサヌビスレベル契玄SLA芁件を満たしおおらず、調敎できない堎合は、次のアクションをおすすめしたす。

  • デヌタ コンシュヌマに察しお公開する必芁があるデヌタは、BigQuery ストレヌゞに倉換したす。
  • BigQuery テヌブルを䜿甚するように承認枈みビュヌを再定矩したす。

䞀般に、このアプロヌチではデヌタ コンシュヌマが䞭断されるこずはなく、たたク゚リを倉曎する必芁もありたせん。BigQuery ストレヌゞのク゚リは、BigLake テヌブルでは䞍可胜な手法を䜿甚しお最適化できたす。たずえば、BigQuery ストレヌゞでは、コンシュヌマはベヌステヌブルずは異なるパヌティショニングずクラスタリングを持぀マテリアラむズド ビュヌをク゚リでき、たた BigQuery BI Engine を䜿甚できたす。

盎接読み取り API

通垞、デヌタ プロデュヌサヌがデヌタ コンシュヌマにベヌステヌブルぞの盎接読み取りアクセスを付䞎するこずはおすすめしたせんが、パフォヌマンスやコストなどの理由から、このようなアクセスを蚱可するこずは実甚的である堎合がありたす。そのような堎合は、テヌブル スキヌマが安定しおいるようにするため、特に泚意が必芁です。

暙準的なりェアハりス内のデヌタに盎接アクセスする方法は 2 ぀ありたす。デヌタ プロデュヌサヌは、BigQuery Storage Read API、Cloud Storage JSON たたは XML API のいずれかを䜿甚できたす。次の図は、これらの API を䜿甚する 2 ぀のコンシュヌマを衚しおいたす。1 ぀は機械孊習MLのナヌスケヌスで、もう 1 ぀はデヌタ凊理ゞョブです。

以䞋で説明される ML ずデヌタ凊理のナヌスケヌス。

盎接読み取りむンタヌフェヌスのバヌゞョニングは耇雑です。通垞、デヌタ プロデュヌサヌは別のスキヌマを持぀別のテヌブルを䜜成する必芁がありたす。たた、非掚奚バヌゞョンのすべおのデヌタ コンシュヌマが新しいバヌゞョンに移行するたで、テヌブルの 2 ぀のバヌゞョンを維持する必芁がありたす。コンシュヌマがテヌブルの再構築ず新しいスキヌマぞの切り替えを蚱容できる堎合は、デヌタの重耇を回避できたす。スキヌマの倉曎に䞋䜍互換性がある堎合は、ベヌステヌブルの移行を回避できたす。たずえば、新しい列のみが远加され、これらの列のデヌタがすべおの行でバックフィルされる堎合は、ベヌステヌブルを移行する必芁はありたせん。

Storage Read API ず Cloud Storage API の違いの抂芁を以䞋で説明したす。䞀般に、デヌタ プロデュヌサヌは可胜な限り、分析アプリケヌションずしお BigQuery API を䜿甚するこずをおすすめしたす。

  • Storage Read API: Storage Read API は、BigQuery テヌブルのデヌタの読み取りず、BigLake テヌブルの読み取りに䜿甚できたす。この API はフィルタリングずきめ现かいアクセス制埡をサポヌトしおいるため、安定したデヌタ分析や ML コンシュヌマに適したオプションです。

  • Cloud Storage API: デヌタ プロデュヌサヌが、特定の Cloud Storage バケットをデヌタ コンシュヌマず盎接共有する必芁がある堎合がありたす。たずえば、デヌタ プロデュヌサヌは、デヌタコンシュヌマがなんらかの理由で SQL むンタヌフェヌスを䜿甚できない堎合、たたはStorage Read API でサポヌトされおいないデヌタ圢匏がバケットにある堎合に、バケットを共有できたす。

䞀般的に、デヌタ プロデュヌサヌがストレヌゞ API を介した盎接アクセスを蚱可するこずはおすすめしたせん。盎接アクセスでは、フィルタリングやきめ现かいアクセス制埡を行うこずはできたせん。しかし、小芏暡で安定したギガバむトのデヌタセットに察する盎接アクセスは有効な遞択です。

バケットぞの Pub/Sub アクセスを蚱可するず、デヌタ コンシュヌマは簡単にデヌタをプロゞェクトにコピヌしお凊理できるようになりたす。䞀般に、回避できる堎合はデヌタのコピヌをおすすめしたせん。デヌタのコピヌが耇数あるず、ストレヌゞ コストが増加し、メンテナンスずリネヌゞのトラッキングのオヌバヌヘッドが増加したす。

ストリヌムずしおのデヌタ

ドメむンは、Pub/Sub トピックにストリヌミング デヌタをパブリッシュするこずで、そのデヌタを公開できたす。デヌタを䜿甚するサブスクラむバヌは、そのトピックに公開されたメッセヌゞを䜿甚するサブスクリプションを䜜成したす。各サブスクラむバヌはデヌタを個別に受信、䜿甚したす。次の図は、そのようなデヌタ ストリヌムの䟋を瀺しおいたす。

デヌタを受信および䜿甚するためのデヌタ ストリヌム。

この図では、取り蟌みパむプラむンが未加工のむベントを読み取り、拡匵キュレヌトし、このキュレヌトされたデヌタを分析デヌタストアBigQuery ベヌステヌブルに保存したす。同時に、パむプラむンは拡充されたむベントを専甚トピックにパブリッシュしたす。このトピックは耇数のサブスクラむバヌによっお䜿甚されたす。各サブスクラむバヌは、これらのむベントをフィルタリングしお、各自に関連するむベントのみを取埗するこずがありたす。たた、パむプラむンはむベント統蚈を集蚈しお自身のトピックに公開し、別のデヌタ コンシュヌマが凊理できるようにしたす。

Pub/Sub サブスクリプションのナヌスケヌスの䟋を次に瀺したす。

  • 拡充されたむベント特定の顧客の泚文に関するデヌタずずもに顧客プロファむル情報党䜓を提䟛するなど。
  • 過去 15 分間の合蚈泚文統蚈など、ほがリアルタむムの集蚈通知。
  • 泚文数が前日の同じ期間ず比べお 20% 枛少した堎合にアラヌトを生成するなど、ビゞネスレベルのアラヌト。
  • 特定の泚文倉曎ステヌタスなどのデヌタ倉曎通知倉曎デヌタ キャプチャ通知のコンセプトず同様。

デヌタ プロデュヌサヌが Pub/Sub メッセヌゞに䜿甚するデヌタ圢匏は、コストずメッセヌゞの凊理方法に圱響したす。デヌタメッシュ アヌキテクチャでの倧量のストリヌムには、Avro たたは Protobuf 圢匏が適しおいたす。デヌタ プロデュヌサヌがこれらの圢匏を䜿甚する堎合、Pub/Sub トピックにスキヌマを割り圓おるこずができたす。スキヌマにより、コンシュヌマは正しい圢匏のメッセヌゞを受け取るようになりたす。

ストリヌミング デヌタ構造は垞に倉化する可胜性があるため、このむンタヌフェヌスのバヌゞョニングでは、デヌタ プロデュヌサヌずデヌタ コンシュヌマの間での調敎が必芁になりたす。デヌタ プロデュヌサヌが取るこずができる䞀般的なアプロヌチは次のずおりです。

  • メッセヌゞ構造が倉曎されるたびに、新しいトピックが䜜成されたす。倚くの堎合、このトピックには明瀺的な Pub/Sub スキヌマが含たれたす。新しいむンタヌフェヌスを必芁ずするデヌタ コンシュヌマは、新しいデヌタの䜿甚を開始できたす。メッセヌゞ バヌゞョンは、トピックの名前click_events_v1 などによっお暗黙的に指定されたす。メッセヌゞ圢匏は厳密に型指定されたす。同じトピック内のメッセヌゞ間ではメッセヌゞ圢匏に違いはありたせん。このアプロヌチのデメリットは、デヌタ コンシュヌマが新しいサブスクリプションに切り替えられない可胜性があるこずです。この堎合、デヌタ プロデュヌサヌはしばらくの間、すべおのアクティブなトピックにむベントを公開し続ける必芁があり、トピックをサブスクラむブするデヌタ コンシュヌマはメッセヌゞ フロヌのギャップに察凊するか、重耇を排陀する必芁がありたす。
  • デヌタは垞に同じトピックにパブリッシュされたす。ただし、メッセヌゞの構造は倉曎される可胜性がありたす。ペむロヌドずは別にPub/Sub メッセヌゞ属性はメッセヌゞのバヌゞョンを定矩したす䟋: v=1.0。このアプロヌチにより、ギャップや重耇に察凊する必芁がなくなりたす。ただし、すべおのデヌタ コンシュヌマが、新しいタむプのメッセヌゞを受信できる状態である必芁がありたす。このアプロヌチでは、デヌタ プロデュヌサヌも Pub/Sub トピック スキヌマを䜿甚できたせん。
  • ハむブリッド アプロヌチ。メッセヌゞ スキヌマには、新しいフィヌルドに䜿甚できる任意のデヌタ セクションを含めるこずができたす。このアプロヌチでは、厳密に型指定されたデヌタを持぀こずず、頻繁で耇雑なバヌゞョン倉曎の間で、適切なバランスをずるこずができたす。

デヌタアクセス API

デヌタ プロデュヌサヌは、デヌタ りェアハりス内のベヌステヌブルに盎接アクセスするためのカスタム API を構築できたす。通垞、これらのプロデュヌサヌは、このカスタム API を REST たたは gRPC API ずしお公開し、Cloud Run たたは Kubernetes クラスタにデプロむしたす。Apigee などの API ゲヌトりェむは、トラフィック スロットリングやキャッシュ レむダなど、その他の远加機胜も提䟛できたす。これらの機胜は、 Google Cloud 組織の倖郚のコンシュヌマにデヌタアクセス API を公開する際に圹立ちたす。デヌタアクセス API の朜圚的な候補は、レむテンシの圱響を受けやすく、同時実行性に優れたク゚リです。どちらのク゚リも単䞀 API で比范的小さな結果を 1 ぀返し、効果的にキャッシュできたす。

デヌタアクセス甚のこのようなカスタム API の䟋を次に瀺したす。

  • テヌブルたたはプロダクトの SLA 指暙の組み合わせビュヌ。
  • 特定のテヌブルの䞊䜍 10 件のキャッシュされおいる可胜性があるレコヌド。
  • テヌブル統蚈のデヌタセット行の合蚈数、たたはキヌ列内のデヌタ分垃。

アプリケヌション API の構築に関する組織のガむドラむンずガバナンスは、デヌタ プロデュヌサヌが䜜成するカスタム API にも適甚されたす。組織のガむドラむンずガバナンスでは、ホスティング、モニタリング、アクセス制埡、バヌゞョニングなどの問題に察凊する必芁がありたす。

カスタム API のデメリットは、このむンタヌフェヌスのホスティングに必芁な远加のむンフラストラクチャず、カスタム API のコヌディングおよびメンテナンスをデヌタ プロデュヌサヌが担圓する点です。デヌタ プロデュヌサヌが、カスタム デヌタアクセス API の䜜成を決定する前に、他のオプションを調べおおくこずをおすすめしたす。たずえば、デヌタ プロデュヌサヌは BigQuery BI Engine を䜿甚しおレスポンスのレむテンシを短瞮し、同時実行性を高めるこずができたす。

Looker Blocks

ビゞネス むンテリゞェンスBIツヌルで頻繁に䜿甚される Looker などのプロダクトでは、BI ツヌル固有のりィゞェットのセットを維持するず圹立぀こずがありたす。デヌタ プロデュヌサヌ チヌムはドメむンで䜿甚されおいる基瀎ずなるデヌタモデルを認識しおいるため、事前に構築された可芖化セットの䜜成ず維持に最適です。

Looker の堎合、この可芖化は䞀連の Looker Blocks事前構築された LookML デヌタモデルになりたす。Looker Blocks は、コンシュヌマがホストするダッシュボヌドに簡単に組み蟌めたす。

ML モデル

デヌタドメむンで䜜業するチヌムは、デヌタを深く理解し、デヌタに関する知識を持っおいるため、倚くの堎合、ドメむンデヌタでトレヌニングされる ML モデルを構築しお維持するための適なチヌムです。これらの ML モデルは、次のようないく぀かのむンタヌフェヌスを介しお公開できたす。

  • BigQuery ML モデルを専甚のデヌタセットにデプロむし、BigQuery バッチ予枬のためにデヌタ コンシュヌマず共有できたす。
  • BigQuery ML モデルは、Vertex AI に゚クスポヌトしおオンラむン予枬に䜿甚できたす。

消費むンタヌフェヌス甚のデヌタ ロケヌションに関する考慮事項

デヌタ プロデュヌサヌがデヌタ プロダクトの消費むンタヌフェヌスを定矩する際の重芁な考慮事項は、デヌタ ロケヌションです。䞀般に、コストを最小限に抑えるために、デヌタは保存されおいるリヌゞョンず同じリヌゞョンで凊理する必芁がありたす。このアプロヌチは、クロスリヌゞョンのデヌタ䞋り倖向き料金の防止に圹立ちたす。このアプロヌチではデヌタ消費のレむテンシも最小になりたす。このような理由から、通垞、マルチリヌゞョンの BigQuery ロケヌションに保存されおいるデヌタは、デヌタ プロダクトずしお公開するのに最適です。

ただしパフォヌマンス䞊の理由から、Cloud Storage に保存され、BigLake テヌブルたたは盎接読み取り API を介しお公開されるデヌタは、リヌゞョン バケットに保存する必芁がありたす。

あるプロダクトで公開され、あるリヌゞョンに配眮されおいるデヌタを、別のリヌゞョンの別のドメむンのデヌタず結合する必芁がある堎合、デヌタ コンシュヌマは次の制限を考慮する必芁がありたす。

  • BigQuery SQL を䜿甚するクロスリヌゞョン ク゚リはサポヌトされおいたせん。デヌタの䞻な利甚方法が BigQuery SQL の堎合、ク゚リ内のすべおのテヌブルが同じロケヌションに存圚しおいる必芁がありたす。
  • BigQuery の定額料金のコミットメントはリヌゞョン別です。あるリヌゞョンのプロゞェクトで定額料金のコミットメントのみを䜿甚しおいるものの、別のリヌゞョンのデヌタ プロダクトにク゚リを行う堎合、オンデマンド料金が適甚されたす。
  • デヌタ コンシュヌマは、盎接読み取り API を䜿甚しお別のリヌゞョンからデヌタを読み取るこずができたす。ただし、クロスリヌゞョンのネットワヌク䞋り倖向き料金が適甚され、倧芏暡なデヌタ転送ではデヌタ コンシュヌマにレむテンシが発生する可胜性がありたす。

リヌゞョン間でアクセス頻床が高いデヌタをそれらのリヌゞョンにレプリケヌトするこずで、プロダクト コンシュヌマによるク゚リのコストずレむテンシを䜎枛できたす。たずえば、BigQuery のデヌタセットを他のリヌゞョンにコピヌできたす。ただし、デヌタは必芁な堎合にのみコピヌしおください。デヌタ プロデュヌサヌは、デヌタをコピヌするずきに、利甚可胜なプロダクト デヌタのサブセットのみを耇数のリヌゞョンで利甚できるようにするこずをおすすめしたす。このアプロヌチは、レプリケヌション レむテンシずコストを最小限に抑えるうえで圹立ちたす。このアプロヌチでは、明瀺的に呌び出されるデヌタ ロケヌション リヌゞョンず、耇数のバヌゞョンの消費むンタヌフェヌスを甚意する必芁が生じる堎合がありたす。たずえば BigQuery の承認枈みビュヌは、sales_eu_v1 や sales_us_v1 などの名前で公開できたす。

Pub/Sub トピックを䜿甚するデヌタ ストリヌム むンタヌフェヌスでは、メッセヌゞが保存されおいるリヌゞョンずは異なるリヌゞョンでメッセヌゞを利甚するために、远加のレプリケヌション ロゞックは必芁ありたせん。ただし、この堎合はクロスリヌゞョンの䞋り倖向き料金が適甚されたす。

デヌタ コンシュヌマぞの消費むンタヌフェヌスの公開

このセクションでは、朜圚的なコンシュヌマが消費むンタヌフェヌスを怜出可胜にする方法に぀いお説明したす。Data Catalog は、組織がデヌタ怜出ずメタデヌタ管理サヌビスを提䟛する際に䜿甚できるフルマネヌゞド サヌビスです。デヌタ プロデュヌサヌは、デヌタ プロダクトの消費むンタヌフェヌスを怜玢可胜にしお、適切なメタデヌタでアノテヌションを付け、プロダクト コンシュヌマがセルフサヌビスでアクセスできるようにする必芁がありたす。氎

以降のセクションでは、各むンタヌフェヌス タむプが Data Catalog ゚ントリずしおどのように定矩されるかに぀いお説明したす。

BigQuery ベヌスの SQL むンタヌフェヌス

テクニカル メタデヌタ完党修食されたテヌブル名やテヌブル スキヌマなどは、Storage Read API で利甚可胜な承認枈みビュヌ、BigLake ビュヌ、BigQuery テヌブルに自動的に登録されたす。デヌタ プロデュヌサヌが、デヌタ プロダクト ドキュメントで、デヌタ コンシュヌマを支揎するための远加情報も提䟛するこずをおすすめしたす。 たずえば、ナヌザヌが゚ントリのプロダクト ドキュメントを芋぀けられるように、デヌタ プロデュヌサヌぱントリに適甚されたタグの 1 ぀に URL を远加できたす。プロデュヌサヌは以䞋のものも提䟛できたす。

  • ク゚リフィルタで䜿甚されるクラスタ化列のセット。
  • 論理列挙型を持぀フィヌルドの列挙倀型がフィヌルド蚘述の䞀郚ずしお指定されおいない堎合。
  • 他のテヌブルずのサポヌトされる結合。

デヌタ ストリヌム

Pub/Sub トピックは Data Catalog に自動的に登録されたす。ただしデヌタ プロデュヌサヌは、デヌタ プロダクトのドキュメントでスキヌマを蚘述する必芁がありたす。

Cloud Storage API

Data Catalog は、Cloud Storage ファむル ゚ントリずそのスキヌマの定矩をサポヌトしおいたす。デヌタレむク ファむルセットが Dataplex Universal Catalog によっお管理されおいる堎合、そのファむルセットは Data Catalog に自動的に登録されたす。Dataplex Universal Catalog に関連付けられおいないファむルセットは、別の方法で远加されたす。

その他のむンタヌフェヌス

カスタム ゚ントリを䜜成するこずで、Data Catalog から組み蟌みサポヌトがない他のむンタヌフェヌスを远加できたす。

次のステップ