Databricks Data + AI Summit 2026 最速レポート Day1
LT紹介
目次
こんにちは!DATUM STUDIOの井田です。
現在参加しているData + AI Summit 2026から、現地レポートをお届けします。

今回ご紹介するのは、DatabricksのSr. Solutions ArchitectであるPavithra Rao氏によるセッション「From MLOps to AgentOps: Shipping Autonomous Agents You Can Actually Trust」です。
MLOps → LLMOps → AgentOps
セッションはまず、AI運用の歴史的な変遷の整理から始まりました。
- ・MLOps(2010年代):
データ・コード・モデルを大規模管理。MLflow・Delta Lake・Feature Storeが中心。 - ・LLMOps(2020年代前半):
大規模言語モデルのチューニングとデプロイ。プロンプトのバージョン管理やRAGパイプライン、コスト管理が焦点に。 - ・AgentOps(2024年〜):
自律的に行動するシステムを構築・評価・統治する時代。Multi-step workflows、Tool use & safety、Tracing、Human-in-the-loopが重要に。
なぜエージェントには、MLOpsのルールがそのまま適用できないのか
エージェントがMLOpsのルールをそのまま適用できない理由として、次の3つの構造的な問題が挙げられていました。
- ・非決定論的(Nondeterministic):
同じ入力でも異なる出力が返ってくる。Exact-matchのテストが機能しなくなる。 - ・コンテキスト依存(Context-dependent):
ツールや検索結果によって振る舞いが変わる。上流のツール変更が回答を変えてしまう。 - ・品質が主観的(Quality is subjective):
「良い回答」はドメイン専門家が定義するもの。単一の精度指標では測れない。
AgentOpsの4つの意思決定
AgentOpsを実践するための、4つの意思決定フレームワークが紹介されました。
Decision 1:アーキテクチャ層を選ぶ
ManagedとCode-firstの2択です。Agent Bricksを使うManagedはプロトタイプ向けで、自動モデル選択・チューニングと評価・モニタリングが組み込まれています。
MLflow TracingやUnity Catalogを使うCode-firstは、完全なコントロールと柔軟性が必要な場合に向いています。最初はManagedで始め、Code-firstに移行していくという考えが示されていました。
Decision 2:Evaluationを最重要事項として位置づける
「評価はエージェントと並行して構築するものであり、後から付け足すものではない」という考え方です。
MLflow Trace+Feedbackを使ったループ(開発中のテスト → 本番モニタリング → 品質の継続的改善)を回し続けることが示されていました。
Decision 3:Unity AI GatewayでAIガバナンスを統治する
ツール・データセット・モデル呼び出しのすべてをガバナンス下に置きます。Unity Catalogがデータ・モデル・エージェント・MCP・スキルを一元管理し、Unity AI Gatewayがそれを執行する構造です。
Decision 4:AgentをCodeのようにプロモートする
Declarative Automation Bundles(DABs)を使い、Dev → Stg → Prdへのプロモーションをコードと同じように管理します。
エージェントが本番で失敗するパターンと処方箋
現場でよく見られる失敗パターンとその対策が、4つのDecisionに対応する形でまとめられていました。
- ・スコープクリープ(「なんでもできる」エージェント) :
狭く・測定可能に始める(Decision 1) - ・ガバナンスされていないツールが、リスクのある行動をとる :
Unity Catalogによるツールガバナンス(Decision 3) - ・ロールバックやバージョン管理がない :
Asset Bundles+Evaluation Gates(Decision 4) - ・体系的な評価なしで動かしている :
その分野の専門家の判断基準に合わせたLLM Judge(AI評価システム)を用意する(Decision 2)
まとめ
セッションの最後にRao氏がスライドに掲げた一文が印象的でした。
「Treat evaluation as a first-class citizen, not an afterthought. It is what turns an impressive demo into a system you can trust.」(評価をファーストクラスとして扱え。それが、印象的なデモを信頼できるシステムに変えるものだ。)
おまけ

セッションを待つ列に並んでいる間、隣に居合わせた方々とお話しする機会がありました。
お一人はヘルスケア関連企業、もうお一人は製薬会社にお勤めの方で、それぞれ自社のデータパイプラインをDatabricksで構築したり、AIエージェントを開発されているとのことでした。
国が違っても、同じツールを使い同じ課題に向き合っている。そのことを現地で肌で感じられたのは、カンファレンスならではの体験でした。