dbt 

dbt Coalesce 2024 最速レポート3日目

こんにちは、時差ぼけが多少緩和されてきた淡島です。今日は先日に引き続き、本会議の日です。
今回は以下4つの会議について、紹介していきたいと思います。
19時~22時にはパーティもあるんですが、きっとそれは他のメンバーが紹介してくれると思うので、乞うご期待!

Keynote: Delivering value with data and AI

本日最初のKeynoteでは、dbt™によって整備されたデータ基盤のある世界において、「どのようなAI的なユースケースが存在しているのか?」について述べられています。

画像のように、様々なユースケースに対してAI的なアプローチが利用されるようになり、「そうしたもののためには、ベースとなるデータ基盤が必要だよね」というところでdbt™への期待が強まっているという内容だったかなと思います。

Keynote: Turning data to value – A dbt customer panel

続いてのKeynoteは、dbt LabのCOOがSalesforceや53Bankを招いて、dbt™によってどう業務が変わったのかを紹介するパネルディスカッション形式の会議でした。

両社ともにdbt™活用によって、業務が大幅に効率化したというようなことを話されていましたが、特に印象に残ったのは、Salesforceの担当者が “it was lifestyle chagne for us”というようなことをdbt™に対して言っていたことでした。中々強烈な物言いだと感じましたが、それほどdbt™というプロダクトが与える影響が大きいことを示していると思います。

Late-stage transformations: Utilizing dbt Semantic Layer metrics​​

この発表では、Semanic Layerの考え方とそこに至るまでの課題とは何なのか?ということにフォーカスされていたように思います。

一つ重要な課題として、Data Team(Data Engineer・Analytics Engineer)はdbt™のmodelを中心に基盤を構築するが、ステークホルダー(マーケター・意思決定層)が見るのはmodelではなく、Metricであることが大きな課題になっているということです。

そして、modelとmetricの間により関連性を持たせることが、Semantic Layerの重要な役割であると考えているようです。

そこでdbt™におけるSemantic Layerでは(Metric Flowを採用しているけれど)動詞中心の記述スタイルから名詞中心の記述スタイルとすることで、それが何を示そうとしているか簡潔に理解できるようにしています。これ自体はLookML等においても採択されているので納得ですね。

他にもdbt CloudでのSemantic Layerのすごい機能は色々あるのですが、ここではその中心となる課題を紹介してみました。

dbt Core: Our love story

実はほとんどの案件では、dbt Coreを使ってるので、貴重なdbt Coreの発表でした。
具体的な中身としては、今年リリースされた目玉機能についてここまでのヒストリーなどを振り返っている感じでした。

詳細な機能リストとしては、

1.unit tests
2.snapshotの改善
3.microbatch

の3種類についてです。

まずはUnitTestについてですが、こちらは2020年から議論が開始されて、2024年のv1.8でやっと実装された機能となります。https://github.com/EqualExperts/dbt-unit-testing などに代表される通り、機能の需要は相当高く、周辺OSSが開発されるほどのものだったと思います。

元々dbt™にはtestが実装されていたのですが、どちらかと言えば品質テストに相当するようなもので、ロジックのテストに相当する機能になります。

次にSnapshotの紹介といきたいところですが、自分はあまり使っていないのでSkipします。というわけでmicrobatchを紹介します。

microbatch機能については、明確にairflowのbackfill等の日時指定によるDAG実行を意識した機能になっているなぁ、という感触です。簡単に言うと、特定の日付のデータだけを対象にしたincrementalモデル機能というところでしょうか。

現時点でおそらくdbt Coreを使った運用を実施しているチームの大半は、airflow(MWAA/Composer含む)を用いているのではないでしょうか、というところで、airflowでの設定と非常に類似した設定と、実行時引数を持った形での実装になっているという感触です。

余談ですが、個人的にはdbt Cloud自体がairflow的に進化していくんだろうなぁと思っており、その際の最大の課題感が、

1.スケジューラー周りの機能不足
2.IF(他RDB/DWH/Storage)周りとの連携

の2点だと思っているので、今回のmicrobatchおよび(あまりCoreとしては触れられていないが)Iceburg対応に関しては、相当大きな機能追加だと思っています。

というわけで非常に魅力的なセッションがたくさんありましたね!
僕は1日早い帰国となるので、レポートもここまでとなります!

このページをシェアする:



DATUM STUDIOは、クライアントの事業成長と経営課題解決を最適な形でサポートする、データ・ビジネスパートナーです。
データ分析の分野でお客様に最適なソリューションをご提供します。まずはご相談ください。