Cloud Data Fusion を使用してデータを取り込む

Cloud Data Fusion には、Dataplex Universal Catalog でサポートされているアセットのいずれかにデータを取り込むための Dataplex Universal Catalog Sink プラグインが用意されています。

始める前に

Cloud Data Fusion インスタンスがない場合は、作成します。このプラグインは、Cloud Data Fusion バージョン 6.6 以降で動作するインスタンスで使用できます。詳細については、Cloud Data Fusion のパブリックインスタンスを作成するをご覧ください。
データが取り込まれる BigQuery データセットや Cloud Storage バケットは、Dataplex Universal Catalog レイクの一部である必要があります。
Cloud Storage エンティティから読み込まれるデータの場合は、Dataproc Metastore をレイクに接続する必要があります。
Cloud Storage エンティティでの CSV データはサポートされていません。
Dataplex Universal Catalog プロジェクトでは、通常 default に設定されているサブネットワークでプライベート Google アクセスを有効にするか、internal_ip_only を false に設定します。

必要なロール

ロールの管理に必要な権限を取得するには、Dataproc サービスエージェントと Cloud Data Fusion サービスエージェント（service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com ）に対する次の IAM ロールを付与するよう管理者に依頼してください。

Dataplex 開発者（roles/dataplex.developer）
Dataplex データリーダー（roles/dataplex.dataReader）
Dataproc Metastore メタデータユーザー（roles/metastore.metadataUser）
Cloud Dataplex サービスエージェント（roles/dataplex.serviceAgent）
Dataplex メタデータリーダー（roles/dataplex.metadataReader）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

パイプラインにプラグインを追加する

Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動します。

[インスタンス] に移動

このページでは、インスタンスを管理できます。
インスタンスを開くには、[インスタンスを表示] をクリックします。
[スタジオ] ページに移動し、[シンク] メニューを開いて、[Dataplex] をクリックします。

プラグインを構成する

このプラグインを [Studio] ページでパイプラインに追加した後、Dataplex Universal Catalog シンクをクリックし、そのプロパティを構成して保存します。

構成の詳細については、Dataplex Sink リファレンスをご覧ください。

省略可: サンプルパイプラインを使ってみる

利用できるサンプルパイプラインには、SAP ソースから Dataplex Universal Catalog シンクへのパイプライン、Dataplex Universal Catalog ソースから BigQuery シンクへのパイプラインなどがあります。

サンプルパイプラインを使用するには、Cloud Data Fusion UI でインスタンスを開き、[Hub] > [Pipelines] をクリックして、Dataplex Universal Catalog パイプラインのいずれかを選択します。パイプラインの作成するためのダイアログが開きます。

パイプラインを実行する

パイプラインをデプロイしたら、Cloud Data Fusion の [Studio] ページでパイプラインを開きます。
[構成] > [リソース] をクリックします。
（省略可）全体的なデータサイズとパイプラインで使用される変換の数に基づいて、[エグゼキュータの CPU] と [メモリ] を変更します。
[保存] をクリックします。
データパイプラインを開始するには、[実行] をクリックします。

次のステップ

Dataplex Universal Catalog Source プラグインを使用して、Cloud Data Fusion でデータを処理する。

Cloud Data Fusion を使用してデータを取り込む コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。