Snowflake 

DATA CLOUD SUMMIT 2024 最速レポート(2日目② Platform Keynote)

こんにちは!時差ボケに負け続けている、DATUM STUDIOデータエンジニアリング本部長の菱沼です!
エンジニアにとってはSUMMIT中で最も熱いコンテンツである、Platoform Keynoteのレポートをお送りします!

Platform Keynote

このKeynoteは二日目の朝9時から行われたもので、オンラインでも配信されていました。ご覧になった方もいるのではないでしょうか?
熱い内容が盛りだくさんすぎて、現地で聴いていた私はこれを書いている今も興奮が冷めません。
たくさんのキーワードがあり、どこから紹介して良いのか悩みますが、注目度の高そうなところから解説していきたいと思います!
ちなみに、SUMMIT中に発表された機能の多くは、Snowflakeの公式ドキュメントに公開されていっていますので、ぜひ見てみてください。

参考:Jun 03-06, 2024 — Summit announcements
https://docs.snowflake.com/en/release-notes/2024/june-summit

Notebook

DATUM STUDIO、ちゅらデータでももちろんですが、多くのデータサイエンティストがNotebookを使って日々の分析や機械学習の仕事をしています。
これまでSnowflakeにデータが有る場合は Google ​​Colab や Databricks など別のシステムから、Snowflakeの中にあるデータを利用していました。
しかし、ついに、Snowflake純正のNotebookがパブリックプレビューされました!

さらに、Databricksにも以前からある、スケジュール実行機能も搭載されています。

ここまでは漏れ聞こえる事前情報でなんとなく予想してた人も多いようでしたが、次のスライドが表示されて会場にはどよめきが起こりました。

そう、コンテナランタイムです!

どうやら、通常のウェアハウスだけでなく、Snowpark Container Service(SPCS)のコンテナをNotebookの実行環境にできるようなのです!
ということは、Notebook からGPUの利用や、各種ネイティブなライブラリの利用などもできるようになっていきそうです。ただしこちらはまだプライベートのようで、現時点では利用できるか確認できませんでした。
パブリックになるのが楽しみですね!
他にもNotebookを強化する機能としては、Inline Copilotが発表されました。

これもどうやらまだ公開されていないプライベートな機能のようですが、Notebookでの分析作業をCopilotが支援してくれるなら生産性が向上すること間違いなしです。
Snowflakeはこのあと紹介するHORIZONのなかで、フルマネージドにメタデータを管理していく機能がどんどん増えてきており、そこで生まれるメタデータをInline Copilotが使って来ることは想像に難くありません。
今後もNotebook周りの機能アップデートから目が離せませんね。

参考:About Snowflake Notebooks
https://docs.snowflake.com/en/user-guide/ui-snowsight/notebooks

AI DATA CLOUDとして

ご存知だと思いますが、AIを活用していくには、多くの要素が必要になります。Snowflakeは発表の中で、その要素として「DATA」「COMPUTE」「AI」「SECURITY & GOVERNANCE」「COLLABORATION」の5つを挙げていました。

①DATA … 構造化データ、非構造化データ、Icebergなど、どんなデータも扱える
②COMPUE … SQL、Python、Java、Scalaなどの各言語への対応や、SPCSによるコンテナへの対応、当然GPUも使える
③AI … Coretex AI に含まれる各基盤モデルや、ARTICの性能の良さ
④SECURITY & GOVERNANCE … アカウントが分離されたアーキテクチャだけでなく、様々なセキュリティ機能や管理機能
⑤COLLABORATION … マーケットを通じたデータやアプリケーションの流通

私がSUMMITに参加するのは今回で3回目ですが、何年にもわたる継続的な機能アップデートの積み重ねによって、ようやくここまで来たんだという気持ちにさせられました。
これを喋っていたBenoîtさんの言葉は、とても重いものだったと私は感じます。
※2年前にIcebergの発表を聞いて盛り上がっていたのは、会場内の周囲で私だけだったのを思い出します。

最初に紹介したNotebookと合わせ、基盤としてのSnowflakeは完全にAIレディーな環境だと思って間違いありません。

今年もあった速度改善

毎年、速度が改善されることで有名なSnowflake(結果として見積もって購入したバジェットが余ることが稀にあって困るSnowflake)ですが、今年も速度改善がドヤ顔で発表されました。

ドン!!

クエリの時間が27%削減されました!!!(諸説あります)
クエリの時間が27%削減されました!!!(諸説あります)
クエリの時間が27%削減されました!!!(諸説あります)

また今年もすごい数字が出てきましたね。
果たしてどんな改善があったんでしょう?Snowflakeは一個ずつどんな改善があったかを教えてくれるので大好きです。

わああああああ、たくさんあるーーーーー!(多すぎて撮れませんでした…)
いくつか読み取れたものを列挙していくと

  • ・繰り返されるクエリのパフォーマンスパターンとトレンドにクエリハッシュを使うように
  • ・非クラスタ化テーブルにアクセスするクエリの実行時間を改善
  • ・大きな行(でかい文字列を含んだりとか)をjoinするときのメモリ効率を改善
  • ・カーディナリティの低い列に対してより良い選択をするよう改善

…うぁぁ、地味だ、めっちゃ地味だ…、最高です。

OLAP系のDBでここまで一強になった製品が、毎月のようにこんな地味な改善を続けて、年間で27%のパフォーマンスを向上するんです。
最高ですね本当に。

個人的には一番好きなコーナーでした。
ちなみにココだけの話ですが、パフォーマンス改善は最近では公式ドキュメントにまとめられているのでたまに見てみると、日々のSQLづくりのヒントになるかもしれません。

参考:Performance Improvements
https://docs.snowflake.com/en/release-notes/performance-improvements

DevOps

Snowflakeはもともとデータウェアハウス製品として、DBの基本的な機能を提供するところから始まっており、開発者向けの機能に注目が集まり始めたのはここ数年のことです。
なので、「すべての機能が揃ってきた!」というよりは、「今はここまで揃ってきたぞ!」というような見方が正しいのかなと思っています。

SnowflakeではSIMPLYFY DEVOPSとして、「BUILD AND CODE」「TEST」「MONITOR AND OPERATE」「DEPLOY AND RELEASE」の4つを挙げていました。

  • ・Git Integration … 待望のGit統合機能です。ついにパブリックプレビューになりました。とりあえず色々触ってみましょう。
  • ・Database Change Management … CREATE OR ALTER TABLEコマンドを使って、Dropやデータのロスなく、テーブルの定義を変更していきます。ちなみに多くのテーブル定義方法が未サポートなので、パブリックプレビューだけど使うときはよくドキュメントを読んでください。
  • ・Snowflake CLI … 例えばデプロイをコマンドでできるようになるCLIツールです。とりあえずローカルにインストールしておくと吉です。
  • ・Snowflake Trail … SnowparkやSPCSにOpenTelemetryを使えるようにするものです。わかっている人にはとても嬉しい機能。「初めて見たよ」って人は、この機会に勉強してみると良いかもしれません。

データパイプラインを開発してる人は、一通り触れておくと良いでしょう。

HORIZON

Keynoteの中でひときわ存在感を示していたものの一つに、HORIZONがありました。
CoretexがAI系の機能群だとしたら、HORIZONはデータチームとデータステュワードのためのデータディスカバリとガバナンスの機能群です。

HORIZONにはたくさんの機能の発表がありましたので、個人的に注目している機能を一部紹介します。

  • ・Internal Marketplace … 具体的な言及は少なかったですが、おそらく同一組織内でのデータコラボレーションを促進する機能になりそうです。会社内で各部署が他部署で利用可能なデータを準備しInternal Marketplaceに掲載すれば、社内でのデータ利活用が一気に広まること間違いなしです。まだパブリックプレビューにはなっていませんが、近日中にはとのことで、期待して待ちましょう。
  • ・Universal Search … なんとGAされました。少し前にパブリックプレビューになったばかりなので、爆速GAですね。Snowflake内のオブジェクトに適切なコメントなどを載せていれば、すでに検索可能なので、まだ試したことのない人は是非試してみてください。
  • ・Cortex Pilot を使ったメタデータの生成 … これは個別の機能名がわからなかったのですが、テーブルに対してLLMモデルがクエリ履歴を元にテーブルの説明を生成し、利用者がそれをAcceptすると、テーブルのメタデータとして保存されるDASHさんのデモがありました。もしかしたらメタデータ生成作業の一部をAIに任せられる日が、もう少しで来るかもしれないですね。楽しみです。

まだまだあるけれど

ここまで紹介した内容は、大体Platform Keynoteのうち1/4くらいの内容です。
他にもDocument AIを用いたデータインジェスチョンや、HORIZONのその他の機能、ストリームやバッチの機能改善、Icebergテーブルのデータカタログ、Native Appなど、様々なコンテンツが盛りだくさんでした。
すべてを記事にしてしまうと、私の寝る時間がなくなってしまうので、この辺で現地レポートは終わろうと思います。
もっと話を聞きたいという人は、ぜひどこかの機会でお声がけください!お待ちしています!!

このページをシェアする:



DATUM STUDIOは、クライアントの事業成長と経営課題解決を最適な形でサポートする、データ・ビジネスパートナーです。
データ分析の分野でお客様に最適なソリューションをご提供します。まずはご相談ください。