こちらのアップデートです。
独自のデータリネージを持ち込む(パブリックプレビュー)
データリネージには、Databricks 外部で実行されるアセットやワークフローも含められるようになりました。Databricks 外でワークロード(たとえば、ファーストマイルの ETL やラストマイルの BI)を実行している場合でも、Unity Catalog を使えば、Databricks が自動的に取得するデータリネージに加えて、外部のリネージメタデータを追加することができ、Unity Catalog 上でエンドツーエンドのリネージビューを得ることができます。これは、Unity Catalog に取り込まれる前にデータがどこから来たのか(例:Salesforce や MySQL)や、Unity Catalog 外でどこでデータが消費されているのか(例:Tableau や PowerBI)を把握したい場合に有用です。この外部リネージメタデータ機能はパブリックプレビューです。独自のデータリネージを持ち込むをご覧ください。
Unity Catalogの外部リネージ機能を使用すると、Databricks外部で実行されるワークフローやシステムのデータリネージを手動で追加できます。この機能により、SalesforceやMySQLなどの外部データソースから、TableauやPowerBIなどのBIツールまで、エンドツーエンドのデータフローを可視化できます。外部メタデータオブジェクトを作成し、Unity Catalogのテーブルやモデルとのリネージ関係を設定することで、データの完全なライフサイクルを把握できます。現在パブリックプレビュー段階にあり、Catalog Explorer UIまたはREST APIを通じて利用可能です。これにより、データガバナンスの強化と、より包括的なデータ管理が実現できます。
機能概要
Unity Catalogの外部リネージ機能は、Databricks環境外で実行されるデータ処理やワークフローを含む、包括的なデータリネージの可視化を実現する機能です。
通常、Unity CatalogはDatabricks内で実行されるクエリ間のデータリネージを自動的にキャプチャしますが、多くの組織では以下のような外部システムも利用しています:
データソース側 (ファーストマイル)
- Salesforce
- MySQL
- PostgreSQL
- その他のSaaSアプリケーション
データ消費側 (ラストマイル)
- Tableau
- Power BI
- その他のBIツール
外部リネージ機能を使用することで、これらの外部システムとDatabricks内のデータアセットとの関係を明示的に定義し、完全なデータフローを可視化できます。
外部リネージの構成要素
要素 | 説明 |
---|---|
外部メタデータオブジェクト | 外部システム内のエンティティ (例: Tableauダッシュボード) を表すオブジェクト |
リネージ関係 | 外部メタデータオブジェクトとUnity Catalogオブジェクト間の接続 |
システムタイプ | 外部システムの種類 (Tableau、PowerBI、カスタムなど) |
エンティティタイプ | オブジェクトの種類 (テーブル、ダッシュボードなど) |
1. エンドツーエンドの可視性
外部リネージ機能により、データの完全なライフサイクルを把握できます。データがどこから来て、どのように変換され、最終的にどこで使用されているかを一目で確認できます。
2. 影響分析の精度向上
変更前の影響確認
- ソースシステムの変更がDatabricksを経由してBIダッシュボードにどう影響するか
- テーブルスキーマの変更が下流のレポートに与える影響
3. コンプライアンスとガバナンスの強化
規制要件への対応において、データの完全な流れを証明できることは重要です。外部リネージにより:
- データの出所と行き先を明確に文書化
- 監査時の説明責任を果たしやすくなる
- データ品質の問題の根本原因を特定しやすくなる
4. チーム間のコラボレーション向上
データエンジニア、アナリスト、ビジネスユーザー間で共通の理解を持てるようになります。
ステップ1: 必要な権限の確認
まず、以下の権限が付与されていることを確認します:
タスク | 必要な権限 |
---|---|
外部メタデータオブジェクトの作成 | メタストアに対するCREATE EXTERNAL METADATA 権限 |
リネージ関係の指定 | 外部メタデータオブジェクトに対するMODIFY 権限 |
ダウンストリームリネージの指定 | Unity Catalogオブジェクトに対する読み取り権限 (例: SELECT ) |
アップストリームリネージの指定 | Unity Catalogオブジェクトに対する書き込み権限 (例: MODIFY ) |
ステップ2: 外部メタデータオブジェクトの作成
Catalog Explorer UIを使用する場合:
必須項目:
- 名前: 分かりやすい名前 (スペース不可)
- システムタイプ: 外部システムを選択 (Tableau、PowerBIなど)
- エンティティタイプ: オブジェクトの種類 (テーブル、ダッシュボードなど)
オプション項目:
- URL: 外部アセットへのリンク
- 説明: オブジェクトの説明
- 列: 列レベルのマッピング用の列名
- プロパティ: JSONキー値ペアとして追加のメタデータ
以下のように外部データベースの体で外部メタデータを作成します。
外部メタデータが作成できたので、Unity Catalogオブジェクトとの依存関係(リネージ)を定義します。
ステップ3: リネージ関係の作成
-
作成した外部メタデータオブジェクトを選択
-
「リネージ関係の作成」をクリック
-
上流または下流の関係を選択
-
関連付けるオブジェクトタイプを選択:
- テーブル: Unity Catalogのテーブル
- モデル: MLモデル
- パス: ボリュームまたは外部ロケーション
- 外部メタデータ: 他の外部メタデータオブジェクト
ここでは、下流の関係を設定します。
テーブルに紐づけます。
ここでもJSON定義を確認できます。
作成をクリックします。
これでリネージを定義できました。
リネージグラフを表示で視覚的にも確認できます。 -
(オプション) 詳細設定で列マッピングや追加メタデータを設定
カタログエクスプローラで紐づけたテーブルにアクセスしても、外部メタデータが関連づけられていることを確認できます。
1. 手動での管理が必要
現在、外部リネージメタデータは自動的にキャプチャされません。すべての外部リネージ関係は手動で作成・管理する必要があります。
2. リネージシステムテーブルの制限
外部リネージ機能で追加したメタデータは、リネージシステムテーブルからクエリできません。プログラムでアクセスする場合はREST APIを使用する必要があります。
3. Unity Catalog内のテーブル間リネージ
Unity Catalogに登録されている2つのテーブル間のリネージ関係を指定する場合、中間に外部メタデータオブジェクトを作成する必要があります。
4. パブリックプレビューの制限
この機能は現在パブリックプレビュー段階にあるため、将来的に仕様が変更される可能性があります。
5. 権限管理の複雑さ
適切なリネージ関係を設定するには、複数のレベルでの権限が必要です。組織内での権限管理ポリシーを事前に確認することが重要です。
Unity Catalogの外部リネージ機能は、Databricks環境を超えたデータの完全な流れを可視化する重要な機能です。SalesforceやMySQLなどのソースシステムから、TableauやPower BIなどのBIツールまで、エンドツーエンドのデータリネージを構築できます。
手動での設定が必要という制限はありますが、データガバナンスの強化、影響分析の精度向上、チーム間のコラボレーション促進など、多くのメリットをもたらします。特に、規制要件への対応やデータ品質管理において、この機能は重要な役割を果たします。
今後、自動化機能の追加やシステムテーブルとの統合など、機能の拡張が期待されます。現時点でも、適切に実装することで、組織のデータ管理能力を大幅に向上させることができるでしょう。
はじめてのDatabricks
Databricks無料トライアル
Views: 0