はじめに
データエンジニアをやっておりますTaichiです。
最近Apache Icebergという単語をよく耳にするようになりました。
Icebergの処理エンジンといえば
Apache Spark
Apache Flink
Trino
などでしょうか。このラインナップ、構築/運用するのは結構ハードなものが多いと思いませんか?
例えば、私のプロジェクトではSparkを使った構成でデータ処理を実施していますが、以下のような具体的な課題に直面しました。
Apache Hadoopのクラスタ構築作業や、Sparkを動かすために専用の記述(PySpark)が必要になる等、一定の学習が…
Source link