Databricksは、宣言型ETLフレームワーク「Apache Spark Declarative Pipelines」をオープンソース化しました。
これは、次期リリースでApache Sparkのコードベースにコミットされる予定です。
このフレームワークはバッチデータとストリーミングデータをサポートするだけでなく、並列実行やチェックポイントの進化といったメンテナンスタスクも処理します。
「Apache Sparkで処理できるなら、パイプラインでも同じことができます」と、テスト中に開発時間を90%短縮するためにBlock氏と協力したエンジニアは述べています。
コメント