Snowflake 

Snowflake Summit 2025 最速レポート2日目⑤
-Gen2 and Adaptive Compute編-

こんにちは、ちゅらデータの菊地です。
本日も、Snowflake Summit 2025最速レポートを投稿します。

今回はキーノートでも紹介があった、標準ウェアハウスの次世代版「Gen2 Warehouses」と、ワークロードに応じて自動で最適化される「Adaptive Compute」のセッション参加の報告です。

なお、昨年のレポート(DATA CLOUD SUMMIT 2024 最速レポート/2日目② Platform Keynote)でも紹介されていますが、毎年Snowflakeは大幅なパフォーマンス改善を発表しており、今年も期待大です。

パフォーマンス改善 Snowflake Summit 2025版

早速ですが今回は、Snowflakeのテーブルにおける分析処理が前年(2024年)に比べて2.1倍高速になったことが発表され、またまたすごい数字ができてきたな、という印象を受けました。

他にもManaged Sparkと比較して1.9倍高速であることを示すベンチマーク結果やIcebergテーブルへの対応においては、Snowflake管理型でも外部管理型でも、2倍以上のパフォーマンス改善が報告されました。

次に、具体的な施策について直近12ヶ月分が発表されたものの、写真一枚では収まりきらなかったので、以下に列挙します。

改善例として、JOINの最適化、推論処理、集計クエリの高速化などが挙げられ、ユーザー側でコードの変更をすることなくパフォーマンス改善の恩恵を受けられることが強調されていました。

1.TopK Improvements
2.Improved query responses with join order improvements
3.Faster scans: Improved single instruction, multiple data (SIMD) processing
4.Faster execution for some queries with LIMIT clauses and GROUP BY statements
5.Improved warehouse utilization for queries that scan only a small amount of micro-partitions
6.Improved table column synchronization for replication
7.Improved efficiency of Automatic Clustering
8.Faster loading time for Python
9.Improved cloning operations, replication refreshers through parallelization
10.Eliminates redundant grouping keys when using Join Elimination
11.Improved sharing of common or similar parts of a query
12.Improved scaling of document pre-processing and inference in Document AI
13.Top-k pruning for queries that contain aggregate functions
14.Improved performance for queries that have equivalent (or similar) subqueries or sub-expressions
15.Search optimization for Iceberg
16.Query acceleration service for Iceberg
17.Pruning for geospatial data types in Iceberg (in private preview)
18.Adaptive I/O and memory tuning to optimize performance and reduce network overhead
19.Better efficiency for selective queries with optimized bloom filters to reduce the amount of data scanned
20.More efficient joins for queries with complex keys, leading to faster query results
21.Faster query performance for complex queries by optimizing data distribution between query operators adaptively during query execution
22.Faster query performance and improved DML efficiency with Generation 2 Warehouses
23.Intelligent Auto-Pruning (GA Soon)

次世代版「Gen2 Warehouse」

ここからはメインテーマでもある、Gen2 Warehouseについてです。
従来型のWarehouseに比べてさらに高速かつ、効率的であると説明されていたのですが具体的な数字が気になるところ、、、、、

もちろん具体的な数字も用意されていました!Gen2 Warehouseは、ハードウェアとソフトウェア両面で刷新されており、BIワークロードでは2.3倍、DML操作(DELETE、MERGE、UPDATE)では最大4.4倍の性能向上が実証されているとのことでした(どこまで速くなるんだ!)。

New!!「Adaptive Compute」

まず、概要からお伝えすると上記スライドでも記載されていますが、 Adaptive Computeは処理実行部分以外をSnowflakeで全て最適化・自動化が可能となり、リソース利用の効率化が期待されます。もちろん、必要に応じて上限の設定やサイズ指定も行うことができます。
セッションで投影されたスライドとあわせて、下記に詳細を記載します。

▲SnowflakeのWarehouseの進化を時系列で示した図。2025年前半にGen2がGAとして登場し、過去からの進化がダウンタイムなしで行われていることが強調されていました。
▲現在のVirtual Warehouseの構造では、部門別など多様なジョブが適切なサイズのウェアハウスにルーティングされているかの確認が難しく、スケーラビリティの管理が課題であると述べられました。
▲Adaptive Computeの全体構成。複数のAdaptive Warehouseが共有クラスタに接続され、自動的にリソースが割り当てられる仕組みを提供。
▲初期設定画面。クレジットやcompute制限の設定などの調整も可能であることを説明。
▲Adaptive Warehouseではクレジット使用量の上限をユーザー側で設定可能かつ、その範囲で最大限の性能をSnowflake側が最適化する仕組みであることを説明。
▲クエリサイズに応じたtarget_statement_sizeを指定(6段階)することで、初期スケーリングの挙動を調整可能であることを説明。
この設定により、Snowflakeは各クエリに必要な並列処理の程度を計算し、小さなクエリの場合は積極的にリソースを縮小できるようになっています。
なお、現状はターゲットサイズを超えてスケールアップすることはなく、今後クエリのニーズに応じて自動的に拡大縮小できるようになれば、この設定は最終的には不要となる見込み、とのことでした。
▲ダウンタイムなしで設定変更が可能。デモの中でも紹介されましたが、GUIもしくは ALTER WAREHOUSEで既存のウェアハウスを従来型から Adaptiveへ変更可能であり、数秒で完了していました。
▲リソースの共有方法を示す図。これまでと異なる点として ウェアハウスは最早ただのポインターであるという表現がされており、実態は共有クラスタ内のプールでリソース管理および、そこで効率的に処理されていることを示しているのだと思われます。
▲複数のワークロードを統合しつつ、それぞれの目的や制限(クレジット上限)に応じて分離管理できる柔軟性を説明する構成図。管理は維持しつつ、これまで以上に高効率な処理が可能になります。
▲Gen2とAdaptiveのどちらを採用するかについて。パフォーマンスを重視するならば答えは Gen2であり最新かつ、最高の性能を提供すると述べつつも、Adaptive ComputeをSnowflakeの将来の戦略の核として位置づけるという表現もされていました。

まとめ

今後、Gen2 Warehouseは標準となり、Adaptive Computeの普及によりSnowflakeのオペレーションはさらに自動化・最適化されていくと予測されます。ALTER文による簡易的な変換もサポートされており段階的な導入も可能となるため、ユーザーにとってはより少ない手間で、最大の効果を得られるデータ基盤が実現しつつあると感じました。

このページをシェアする:



DATUM STUDIOは、クライアントの事業成長と経営課題解決を最適な形でサポートする、データ・ビジネスパートナーです。
データ分析の分野でお客様に最適なソリューションをご提供します。まずはご相談ください。

関連記事