月曜日, 6月 30, 2025
月曜日, 6月 30, 2025
- Advertisment -
ホームニューステックニュースDatabricksに外部リネージを持ち込む #UnityCatalog - Qiita

Databricksに外部リネージを持ち込む #UnityCatalog – Qiita



Databricksに外部リネージを持ち込む #UnityCatalog - Qiita

こちらのアップデートです。

独自のデータリネージを持ち込む(パブリックプレビュー)
データリネージには、Databricks 外部で実行されるアセットやワークフローも含められるようになりました。Databricks 外でワークロード(たとえば、ファーストマイルの ETL やラストマイルの BI)を実行している場合でも、Unity Catalog を使えば、Databricks が自動的に取得するデータリネージに加えて、外部のリネージメタデータを追加することができ、Unity Catalog 上でエンドツーエンドのリネージビューを得ることができます。これは、Unity Catalog に取り込まれる前にデータがどこから来たのか(例:Salesforce や MySQL)や、Unity Catalog 外でどこでデータが消費されているのか(例:Tableau や PowerBI)を把握したい場合に有用です。

この外部リネージメタデータ機能はパブリックプレビューです。独自のデータリネージを持ち込むをご覧ください。

Unity Catalogの外部リネージ機能を使用すると、Databricks外部で実行されるワークフローやシステムのデータリネージを手動で追加できます。この機能により、SalesforceやMySQLなどの外部データソースから、TableauやPowerBIなどのBIツールまで、エンドツーエンドのデータフローを可視化できます。外部メタデータオブジェクトを作成し、Unity Catalogのテーブルやモデルとのリネージ関係を設定することで、データの完全なライフサイクルを把握できます。現在パブリックプレビュー段階にあり、Catalog Explorer UIまたはREST APIを通じて利用可能です。これにより、データガバナンスの強化と、より包括的なデータ管理が実現できます。

機能概要

Unity Catalogの外部リネージ機能は、Databricks環境外で実行されるデータ処理やワークフローを含む、包括的なデータリネージの可視化を実現する機能です。

通常、Unity CatalogはDatabricks内で実行されるクエリ間のデータリネージを自動的にキャプチャしますが、多くの組織では以下のような外部システムも利用しています:

データソース側 (ファーストマイル)

  • Salesforce
  • MySQL
  • PostgreSQL
  • その他のSaaSアプリケーション

データ消費側 (ラストマイル)

  • Tableau
  • Power BI
  • その他のBIツール

外部リネージ機能を使用することで、これらの外部システムとDatabricks内のデータアセットとの関係を明示的に定義し、完全なデータフローを可視化できます。

外部リネージの構成要素

要素 説明
外部メタデータオブジェクト 外部システム内のエンティティ (例: Tableauダッシュボード) を表すオブジェクト
リネージ関係 外部メタデータオブジェクトとUnity Catalogオブジェクト間の接続
システムタイプ 外部システムの種類 (Tableau、PowerBI、カスタムなど)
エンティティタイプ オブジェクトの種類 (テーブル、ダッシュボードなど)

1. エンドツーエンドの可視性

外部リネージ機能により、データの完全なライフサイクルを把握できます。データがどこから来て、どのように変換され、最終的にどこで使用されているかを一目で確認できます。

2. 影響分析の精度向上

変更前の影響確認

  • ソースシステムの変更がDatabricksを経由してBIダッシュボードにどう影響するか
  • テーブルスキーマの変更が下流のレポートに与える影響

3. コンプライアンスとガバナンスの強化

規制要件への対応において、データの完全な流れを証明できることは重要です。外部リネージにより:

  • データの出所と行き先を明確に文書化
  • 監査時の説明責任を果たしやすくなる
  • データ品質の問題の根本原因を特定しやすくなる

4. チーム間のコラボレーション向上

データエンジニア、アナリスト、ビジネスユーザー間で共通の理解を持てるようになります。

ステップ1: 必要な権限の確認

まず、以下の権限が付与されていることを確認します:

タスク 必要な権限
外部メタデータオブジェクトの作成 メタストアに対するCREATE EXTERNAL METADATA権限
リネージ関係の指定 外部メタデータオブジェクトに対するMODIFY権限
ダウンストリームリネージの指定 Unity Catalogオブジェクトに対する読み取り権限 (例: SELECT)
アップストリームリネージの指定 Unity Catalogオブジェクトに対する書き込み権限 (例: MODIFY)

ステップ2: 外部メタデータオブジェクトの作成

Catalog Explorer UIを使用する場合:

  1. Databricksワークスペースで「カタログ」をクリック

  2. 「外部メタデータ」ボタンをクリック
    Screenshot 2025-06-29 at 8.28.13.png

  3. 「外部メタデータ」タブに移動し、「外部メタデータの作成」をクリック
    Screenshot 2025-06-29 at 8.28.22.png

  4. 以下の情報を入力:
    Screenshot 2025-06-29 at 8.28.31.png

必須項目:

  • 名前: 分かりやすい名前 (スペース不可)
  • システムタイプ: 外部システムを選択 (Tableau、PowerBIなど)
  • エンティティタイプ: オブジェクトの種類 (テーブル、ダッシュボードなど)

オプション項目:

  • URL: 外部アセットへのリンク
  • 説明: オブジェクトの説明
  • : 列レベルのマッピング用の列名
  • プロパティ: JSONキー値ペアとして追加のメタデータ

以下のように外部データベースの体で外部メタデータを作成します。
Screenshot 2025-06-29 at 8.35.41.png

JSONを表示ボタンを押すとJSON定義を確認できます。
Screenshot 2025-06-29 at 8.35.48.png

外部メタデータが作成できたので、Unity Catalogオブジェクトとの依存関係(リネージ)を定義します。
Screenshot 2025-06-29 at 8.35.57.png

ステップ3: リネージ関係の作成

  1. 作成した外部メタデータオブジェクトを選択

  2. 「リネージ関係の作成」をクリック

  3. 上流または下流の関係を選択

  4. 関連付けるオブジェクトタイプを選択:

    • テーブル: Unity Catalogのテーブル
    • モデル: MLモデル
    • パス: ボリュームまたは外部ロケーション
    • 外部メタデータ: 他の外部メタデータオブジェクト

    ここでは、下流の関係を設定します。
    Screenshot 2025-06-29 at 8.36.18.png
     テーブルに紐づけます。
    Screenshot 2025-06-29 at 8.36.26.png
    Screenshot 2025-06-29 at 8.36.44.png
    ここでもJSON定義を確認できます。
    Screenshot 2025-06-29 at 8.37.02.png
    作成をクリックします。
    Screenshot 2025-06-29 at 8.36.50.png
    これでリネージを定義できました。
    Screenshot 2025-06-29 at 8.37.10.png
    リネージグラフを表示で視覚的にも確認できます。
    Screenshot 2025-06-29 at 8.40.38.png

  5. (オプション) 詳細設定で列マッピングや追加メタデータを設定

カタログエクスプローラで紐づけたテーブルにアクセスしても、外部メタデータが関連づけられていることを確認できます。
Screenshot 2025-06-29 at 8.37.24.png

リネージグラフにも表示されています。
Screenshot 2025-06-29 at 8.38.27.png

1. 手動での管理が必要

現在、外部リネージメタデータは自動的にキャプチャされません。すべての外部リネージ関係は手動で作成・管理する必要があります。

2. リネージシステムテーブルの制限

外部リネージ機能で追加したメタデータは、リネージシステムテーブルからクエリできません。プログラムでアクセスする場合はREST APIを使用する必要があります。

3. Unity Catalog内のテーブル間リネージ

Unity Catalogに登録されている2つのテーブル間のリネージ関係を指定する場合、中間に外部メタデータオブジェクトを作成する必要があります。

4. パブリックプレビューの制限

この機能は現在パブリックプレビュー段階にあるため、将来的に仕様が変更される可能性があります。

5. 権限管理の複雑さ

適切なリネージ関係を設定するには、複数のレベルでの権限が必要です。組織内での権限管理ポリシーを事前に確認することが重要です。

Unity Catalogの外部リネージ機能は、Databricks環境を超えたデータの完全な流れを可視化する重要な機能です。SalesforceやMySQLなどのソースシステムから、TableauやPower BIなどのBIツールまで、エンドツーエンドのデータリネージを構築できます。

手動での設定が必要という制限はありますが、データガバナンスの強化、影響分析の精度向上、チーム間のコラボレーション促進など、多くのメリットをもたらします。特に、規制要件への対応やデータ品質管理において、この機能は重要な役割を果たします。

今後、自動化機能の追加やシステムテーブルとの統合など、機能の拡張が期待されます。現時点でも、適切に実装することで、組織のデータ管理能力を大幅に向上させることができるでしょう。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル





Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -