2026.06.16 Databricks　

Databricks Data + AI Summit 2026 最速レポート Day1
LT紹介

1 MLOps → LLMOps → AgentOps
2 なぜエージェントには、MLOpsのルールがそのまま適用できないのか
3 AgentOpsの4つの意思決定
4 エージェントが本番で失敗するパターンと処方箋
5 まとめ
6 おまけ

こんにちは！DATUM STUDIOの井田です。

現在参加しているData + AI Summit 2026から、現地レポートをお届けします。

今回ご紹介するのは、DatabricksのSr. Solutions ArchitectであるPavithra Rao氏によるセッション「From MLOps to AgentOps: Shipping Autonomous Agents You Can Actually Trust」です。

MLOps → LLMOps → AgentOps

セッションはまず、AI運用の歴史的な変遷の整理から始まりました。

・MLOps（2010年代）：
データ・コード・モデルを大規模管理。MLflow・Delta Lake・Feature Storeが中心。
・LLMOps（2020年代前半）：
大規模言語モデルのチューニングとデプロイ。プロンプトのバージョン管理やRAGパイプライン、コスト管理が焦点に。
・AgentOps（2024年〜）：
自律的に行動するシステムを構築・評価・統治する時代。Multi-step workflows、Tool use & safety、Tracing、Human-in-the-loopが重要に。

なぜエージェントには、MLOpsのルールがそのまま適用できないのか

エージェントがMLOpsのルールをそのまま適用できない理由として、次の3つの構造的な問題が挙げられていました。

・非決定論的（Nondeterministic）：
同じ入力でも異なる出力が返ってくる。Exact-matchのテストが機能しなくなる。
・コンテキスト依存（Context-dependent）：
ツールや検索結果によって振る舞いが変わる。上流のツール変更が回答を変えてしまう。
・品質が主観的（Quality is subjective）：
「良い回答」はドメイン専門家が定義するもの。単一の精度指標では測れない。

AgentOpsの4つの意思決定

AgentOpsを実践するための、4つの意思決定フレームワークが紹介されました。

Decision 1：アーキテクチャ層を選ぶ
ManagedとCode-firstの2択です。Agent Bricksを使うManagedはプロトタイプ向けで、自動モデル選択・チューニングと評価・モニタリングが組み込まれています。
MLflow TracingやUnity Catalogを使うCode-firstは、完全なコントロールと柔軟性が必要な場合に向いています。最初はManagedで始め、Code-firstに移行していくという考えが示されていました。

Decision 2：Evaluationを最重要事項として位置づける
「評価はエージェントと並行して構築するものであり、後から付け足すものではない」という考え方です。
MLflow Trace＋Feedbackを使ったループ（開発中のテスト → 本番モニタリング → 品質の継続的改善）を回し続けることが示されていました。

Decision 3：Unity AI GatewayでAIガバナンスを統治する
ツール・データセット・モデル呼び出しのすべてをガバナンス下に置きます。Unity Catalogがデータ・モデル・エージェント・MCP・スキルを一元管理し、Unity AI Gatewayがそれを執行する構造です。

Decision 4：AgentをCodeのようにプロモートする
Declarative Automation Bundles（DABs）を使い、Dev → Stg → Prdへのプロモーションをコードと同じように管理します。

エージェントが本番で失敗するパターンと処方箋

現場でよく見られる失敗パターンとその対策が、4つのDecisionに対応する形でまとめられていました。

・スコープクリープ（「なんでもできる」エージェント） ：
狭く・測定可能に始める（Decision 1）
・ガバナンスされていないツールが、リスクのある行動をとる ：
Unity Catalogによるツールガバナンス（Decision 3）
・ロールバックやバージョン管理がない ：
Asset Bundles＋Evaluation Gates（Decision 4）
・体系的な評価なしで動かしている ：
その分野の専門家の判断基準に合わせたLLM Judge（AI評価システム）を用意する（Decision 2）

まとめ

セッションの最後にRao氏がスライドに掲げた一文が印象的でした。

「Treat evaluation as a first-class citizen, not an afterthought. It is what turns an impressive demo into a system you can trust.」（評価をファーストクラスとして扱え。それが、印象的なデモを信頼できるシステムに変えるものだ。）

おまけ

セッションを待つ列に並んでいる間、隣に居合わせた方々とお話しする機会がありました。
お一人はヘルスケア関連企業、もうお一人は製薬会社にお勤めの方で、それぞれ自社のデータパイプラインをDatabricksで構築したり、AIエージェントを開発されているとのことでした。
国が違っても、同じツールを使い同じ課題に向き合っている。そのことを現地で肌で感じられたのは、カンファレンスならではの体験でした。

このページをシェアする：

前へ次へ

Databricks Data + AI Summit 2026 最速レポート Day1LT紹介

MLOps → LLMOps → AgentOps

なぜエージェントには、MLOpsのルールがそのまま適用できないのか

AgentOpsの4つの意思決定

エージェントが本番で失敗するパターンと処方箋

まとめ

おまけ

Databricks Data + AI Summit 2026 最速レポート Day1
LT紹介