Databricksのデータ分類を試してみる #データガバナンス - Qiita

こちらの機能です。

データカタログには膨大な量のデータが含まれる場合があり、多くの場合、既知および未知の機密データが含まれています。データ チームは、各テーブルにどのような機密データが存在するかを理解し、このデータへのアクセスを管理し、民主化することが重要です。

この問題に対処するために、Databricksのデータ分類はカタログ内のテーブルを自動的に分類してタグ付けします。これにより、機密データを検出したり、Unity Catalogにおけるロールベースのアクセス制御 (RBAC)や属性ベースのアクセス制御(ABAC) ポリシーを用いて、結果に対してガバナンス制御を適用することができます。

以下に分類されます。

"credit_card"        // クレジットカード番号
"email_address"      // メールアドレス
"iban_code"          // International Bank Account Number (IBAN)
"ip_address"         // IPアドレス (IPv4 or IPv6)
"location"           // 地名
"name"               // 氏名
"phone_number"       // 電話番号
"us_bank_number"     // US bank number
"us_driver_license"  // US driver license
"us_itin"            // US Individual Taxpayer Identification Number
"us_passport"        // US Passport
"us_ssn"             // US Social Security Number

注意

  • 執筆時点ではベータ版です。
  • この機能を使うと、分類対象のカタログ配下のテーブルに、タグが付与されます。インパクトをご理解の上で使用することを強くお勧めします

ワークスペースのプレビューメニューで、Data Classificationをオンにします。

Screenshot 2025-04-11 at 20.54.39.png

データ分類はカタログ単位で有効化/無効化できます。カタログエクスプローラでカタログにアクセスすると、詳細タブのAdvancedData Classificationが表示されます。このトグルをオンにすることで、カタログに対してデータ分類が行われます。

Screenshot 2025-04-11 at 20.56.22.png

有効化の際には、対象とするスキーマを選択することも可能です。

Screenshot 2025-04-11 at 20.56.41.png

しばらく待つと、See resultsのボタンが活性化します。こちらをクリックすることでダッシュボードにアクセスできます。

Screenshot 2025-04-11 at 21.17.49.png

注意
こちらにあるように、データ分類には最大24時間を要します。

ダッシュボードでは、分類結果を確認することができます。こちらは概要

Screenshot 2025-04-12 at 7.17.54.png

(1日分しか表示されていませんが)分類結果の時系列変化を確認できます。

Screenshot 2025-04-12 at 7.18.12.png

分類結果やインパクト分析結果です。

Screenshot 2025-04-12 at 7.18.30.png

そして、分類結果はテーブルのカラムにタグとして付与されます。

Screenshot 2025-04-12 at 7.18.56.png

Screenshot 2025-04-12 at 7.19.39.png

これによって、タグベースの検索が可能になるだけでなく、現在プレビュー中のタグベースのアクセス制御(Attribute-based Access Control: ABAC)でこれらのタグを活用できるようになります。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link