dbt Coalesce 最速レポート2日目-Keynote-

DATUM STUDIOの淡島です。dbt Coalesceも2日目に突入です!
今日からが本番というところでKeynoteについて速報していきたいと思います。

dbt LabsとFivetranの合併
dbt Labs CEOのTristan Handy氏とFivetran CEOのGeorge Fraser氏のディスカッションの中で、現状のデータプラットフォーム業界についてデータプラットフォームの統合ソリューションに対する顧客の需要の高まりと、ベンダーがビジネスを強化するために新しい分野へ拡大し続けている点に言及していました。
データプラットフォーム業界が統合と拡大という2つの主要な力によって変化していると述べました。顧客は統合ソリューションを求めており、ベンダー(Snowflake/Databricks/Microsoft等)はプラットフォームを拡大している中でdbt LabsとFivetranの合併がオープン性と相互運用性を重視し、ユーザーの選択肢を維持することを目的としているとのことです。
dbt LabsとFivetranの合併によって今までdbt Cloudにおいて構成が難しかったインターフェースに関わるデータの連携部についてFivetranのConnectorが対応できることになりそうです。SnowflakeがOpenFlowによって対応するところを、dbtはFivetranで対応するようにした対比が面白いですね。
余談ですがFivetranのGitHubに直近大量のFivetranのConnectorに対応したdbt packageのupdateが入っていました。今後この方向性での連携を進めていくのか、もっとdbtの中に組み込んでいくのか楽しみです。dbt CloudのJobの構成を加味するとFivetranのJobのあとにdbtのJobの実行というパターンも想定できそうです。
dbt Fusion
Keynoteの大半を費やして説明されていたのが、dbt Fusion engineでした。
dbt Fusion engineがdbtの未来の中心であると発表しました。Fusionはdbt Coreよりも30倍高速で、開発者エクスペリエンスを大幅に向上させ、AIやエージェントベースのワークロードに最適とのことでした。さらにdbt FusionはAIエージェントのコンテキスト、ツール使用、エラー訂正を提供する上で重要な役割を果たすとしています。dbt Fusionではインスタントコード検証、CTEプレビュー、カラムレベルの系譜、比較変更などの機能を持っています。個別の開発環境だけではなくdbtプロジェクトの生産環境でのワークフローを強化するために高基準で設定されており、対象プロジェクト向けにdbtプラットフォームでのプレビューが開始されました。
こうしたdbt Fusion engineはプロジェクトの実行時間を60%高速化し、DWHでの実行コストを約45%削減することに成功しました。非常に少ない労力で開発者体験を大幅に向上させ、以前は修正に24時間かかっていた問題を即座に修正できるようになりました。さらにステートオーケストレーションは現在プレビュー版として利用可能であり、必要なモデルのみを実行することで、データパイプラインの動作を根本的に書き換えて無駄を減らし、より迅速な配信を実現します。これにより、コンピューティングコストが約10%削減される可能性があります。
これらの機能によってユーザーはデータ鮮度要件を宣言でき、Fusionは新しいデータや変更されたデータを含むアップストリームテーブルを正確に検出し、プロジェクトに設定された鮮度ターゲットを強制します。また、Fusionはよりスマートで効率的なテストを可能にし、集約型テストにより重複するテーブルスキャンを排除し、データが変更された場合、もしくは使用されている場合にのみテストを行うことで、年間データプラットフォームコストをさらに4%~15%削減できる可能性があります。最後にFusionがモデルの更新にかかるコストを自動化によって9%削減し、さらに調整された設定を追加することで55%の追加削減、合計64%のコスト削減を達成したと述べました。
Keynoteで約1時間かけて説明されていたことからも、非常に注力されていることがわかります。
まずAI向けの話としては、個人的にはSerena MCPに近しいものを感じます。dbt向けのSQLをコンパイルしてその中身をLLMに投下することでエージェントが適切に次のアクションを判断できるようにしたいという意図を感じました。
Fusionのその他の機能については、Fivetranとの合併からも伺えるように、Airflowなどのワークフローオーケストレーションツール化を明確に意図しているのかなと感じます。dbt Cloudでの課金を進めるにはやはりMWAAからの移行を推進するしかないのでは、という方向性があり、そのためのFusion(ライセンス体系からもその意図が読み取れます)なのではないかなと思います。dbtの世界でインターフェースを含む全てのパイプラインが実行される世界線も一つ楽しみにしたいですね。
AIによる支援機能
dbtは、コンテキスト認識AIであるdbt Copilotと連携して、テスト、ドキュメント、SQLパイプラインの生成を自動化し、作業を加速できると発表しました。AIエージェントがデータ消費を民主化し、ユーザーがデータ資産を見つける手間を省くと説明しました。
例えば、Discovery Agentは承認されたデータセットと定義を特定し、その信頼性を保証する。また、Analyst Agentは複雑な質問に governed な回答を提供し、dbtセマンティックレイヤーとプロジェクトコンテキストを活用してAI導入を大規模に促進します。Observability Agentは失敗したパイプラインの特定とその原因を判断できるようになります。
これらの機能は、一般的な各種AIエージェントツールの作成の範疇かなという印象です。特に気になるのはObservability Agentです。データパイプラインでは開発よりも運用にかかる時間が長くなる傾向にあるので、運用における工数削減の可能性については注目したいです。
まとめ
昨年から、Airflowを打破し、dbt Cloudに寄せたいという意向を個人的には感じていました。そのために、ワークフローオーケストレーションツール化するという狙いがあるのではないでしょうか。昨年はData Meshなどの分割統治化を推進しており、今年はワークフローオーケストレーション化にフォーカスすることで概ねその準備は整ったという印象です。
そしてこれらの生産性向上のためにAI Agentによるサポートを実施するという流れは、プロダクト作りの方向性や戦略が垣間見れて非常に面白いですね。