この記事は何?
データパイプラインの構築や移行をしていると、「構成したパイプラインがつくったデータ」と「正解データ」の間の数値が一致しているのか検証したくなることがあります。数千万行を超える単位(つまり、Excelでは扱えない規模)のテーブルデータの突合となると、意外に慣れやテクニックが必要で、初めてやる人にとっては躓きやすい作業のひとつです。
この記事では、そういった数値検証のためのテクニックをまとめたものです。
!
記事中に登場する例はSnowflakeのクエリになりますが、提案しているコンセプト自体はどのプラットフォームでも共通した考え方になるかと思います。
大まかな数値…
Source link
Views: 0