Snowflake 

Snowflake SUMMIT 2023 最速レポ(2日目①)

こんにちは!DATUM STUDIOの向井です。
昨日に引き続き、Snowflake SUMMIT の2日目レポートをお送りします!

オープニングキーノート

最初にオープニングキーノートが開催されました!内容が盛りだくさんなので、主要なアップデートをかいつまんで紹介したいと思います。

unified iceberg table

これまでiceberg tableを使う際はexternal tableを用いる必要がありましたが、それを使用しない、unified iceberg tableが発表されました!external tableを使った場合に比べて、大幅なパフォーマンス改善が見込まれるようです。

Document AI

ついにSnowflake上でも、Document AIが実装されます!pdfなどの非構造化データからOCRを行い、構造化データに再構築を行うデモが行われました。

デモでは工場部品の検査証を題材としています。転移学習としてそれぞれのパラメータを抽出します。抽出も自然言語で行うことができます。

予測は以下のように、テーブル関数にpdfへのパスを渡してあげると簡単にできます。

Snowflake performance index

性能向上のアップデートが発表されました。Snowflakeは独自の性能指標、Snowflake performance indexを設定しています。これはSnowflakeが顧客のクエリワークロードから独自に算出をした指標です。発表によると15%、指標の改善が見られたとのことです。使っているうちにクエリがどんどん早くなって、料金も安くなっていくのは末恐ろしいですね。

developer experience

いくつか、開発体験向上の発表がありました。
まずは各種APIの実装、git統合が発表されました!アドホックなクエリやステートレスなオブジェクトをバージョン管理できるようになったことが、本当に素晴らしいです。

Snowparkについてもアップデートが発表されました。
多すぎて追い切れないのですが、最も注目すべきはインターネットへの通信が許可されるようになることでしょう。自由にAPIを叩くことができるようになるため、できることが大幅に増えますね!

AI/ML

AI/ML関連では、以下の発表がされました。
Snowparkでのコンテナ実行、およびGPU対応が発表されました!

デモでは、Hexのnotebook上でXGboostのGPUで実装する例が紹介されました。数時間かかる学習が、10分程度におさまるようになったとのことです。

ecosystem

Snowflakeに関連するパートナー製品についても、10秒程度でそれぞれアップデートが紹介されました。
詳細は明日以降、各ブースで検証していきたいと思います!

Data Governance in a Data Mesh

ここからはBreakout Sessionの紹介になります。
最初は、Data Meshのセッションへ行きました。序盤はData Meshに関する簡単な概念の説明や、運用方法について説明がありました。

次に、Snowflakeでどのようにこの構成を実現するか、アーキテクチャの説明がありました。
印象に残っているのはZero Data Accountという考え方で、tagやmasking policyなどのガバナンスに必要なオブジェクトは専用のアカウントを用意して、レプリケーションによって各ドメインに配布するというものでした。

監査ログの運用方法なども説明があり、今後Data Meshを構築するにあたって非常に参考になるセッションでした。

Image Processing in Snowflake with Snowpark Python

こちらのセッションは、Snowflake Pythonで画像処理を行うものでした。
題材はスマートフォンの修理画像で、過去に同じ機種の画像がないかどうかを探すというものでした。

類似性判定の方法として4つの手法が挙げられ、今回はimage embeddingを用いた手法で実装が行われていました。

external tableから画像データを読み込み、Directory tableに保存した後に推論を行うようなアーキテクチャでした。

実際に推論を行うデモも行われ、非構造化データへの対応に未来を感じさせられるような発表でした!

Unlocking Marketing Attribution Using Snowpark and Data Clean Rooms

最後は、Data Clean Roomの発表でした。
最初にData Clean Roomについての概要が説明されました。私自身この分野には馴染みがなかったのですが、retailerとadvertisersの関係まで言及されており、非常にわかりやすいと感じました。

Snowflake上ではNative appを使用してデータ共有を行っていました。Data sharingとの違いはprocedureで動的に計算を行うことで、機械学習の結果なども簡単に共有することができる点です。

最後にデモも行われました。
実際にインストールのスクリプトが走る様子や、サイトの初回訪問数をconsumer側のアカウントで計算する様子が実例に近い形で、とてもイメージしやすかったです。

まとめ

明日以降もBuilders Keynoteでアップデートの発表やデモが行われる予定のため、目が離せません!今後の続報をお楽しみに!

Snowflake SUMMIT 2023最速レポ1日目の記事はこちら

このページをシェアする:



DATUM STUDIOは、クライアントの事業成長と経営課題解決を最適な形でサポートする、データ・ビジネスパートナーです。
データ分析の分野でお客様に最適なソリューションをご提供します。まずはご相談ください。