Databricks Data + AI Summit 2026 最速レポート Day1LT紹介 | DATUM STUDIO株式会社
Databricks 

Databricks Data + AI Summit 2026 最速レポート Day1
LT紹介

こんにちは!DATUM STUDIOの井田です。

現在参加しているData + AI Summit 2026から、現地レポートをお届けします。

今回ご紹介するのは、DatabricksのSr. Solutions ArchitectであるPavithra Rao氏によるセッション「From MLOps to AgentOps: Shipping Autonomous Agents You Can Actually Trust」です。

MLOps → LLMOps → AgentOps

セッションはまず、AI運用の歴史的な変遷の整理から始まりました。 

  • ・MLOps(2010年代)
    データ・コード・モデルを大規模管理。MLflow・Delta Lake・Feature Storeが中心。
  • ・LLMOps(2020年代前半)
    大規模言語モデルのチューニングとデプロイ。プロンプトのバージョン管理やRAGパイプライン、コスト管理が焦点に。
  • AgentOps(2024年〜)
    自律的に行動するシステムを構築・評価・統治する時代。Multi-step workflows、Tool use & safety、Tracing、Human-in-the-loopが重要に。

なぜエージェントには、MLOpsのルールがそのまま適用できないのか

エージェントがMLOpsのルールをそのまま適用できない理由として、次の3つの構造的な問題が挙げられていました。 

  • 非決定論的(Nondeterministic)
    同じ入力でも異なる出力が返ってくる。Exact-matchのテストが機能しなくなる。
  • ・コンテキスト依存(Context-dependent)
    ツールや検索結果によって振る舞いが変わる。上流のツール変更が回答を変えてしまう。
  • ・品質が主観的(Quality is subjective)
    「良い回答」はドメイン専門家が定義するもの。単一の精度指標では測れない。

AgentOpsの4つの意思決定 

AgentOpsを実践するための、4つの意思決定フレームワークが紹介されました。

Decision 1:アーキテクチャ層を選ぶ 
ManagedとCode-firstの2択です。Agent Bricksを使うManagedはプロトタイプ向けで、自動モデル選択・チューニングと評価・モニタリングが組み込まれています。
MLflow TracingやUnity Catalogを使うCode-firstは、完全なコントロールと柔軟性が必要な場合に向いています。最初はManagedで始め、Code-firstに移行していくという考えが示されていました。

Decision 2:Evaluationを最重要事項として位置づける 
「評価はエージェントと並行して構築するものであり、後から付け足すものではない」という考え方です。
MLflow Trace+Feedbackを使ったループ(開発中のテスト → 本番モニタリング → 品質の継続的改善)を回し続けることが示されていました。 

Decision 3:Unity AI GatewayでAIガバナンスを統治する  
ツール・データセット・モデル呼び出しのすべてをガバナンス下に置きます。Unity Catalogがデータ・モデル・エージェント・MCP・スキルを一元管理し、Unity AI Gatewayがそれを執行する構造です。 

Decision 4:AgentをCodeのようにプロモートする
Declarative Automation Bundles(DABs)を使い、Dev → Stg → Prdへのプロモーションをコードと同じように管理します。

エージェントが本番で失敗するパターンと処方箋

現場でよく見られる失敗パターンとその対策が、4つのDecisionに対応する形でまとめられていました。

  • スコープクリープ(「なんでもできる」エージェント)
    狭く・測定可能に始める(Decision 1)
  • ・ガバナンスされていないツールが、リスクのある行動をとる
    Unity Catalogによるツールガバナンス(Decision 3)
  • ロールバックやバージョン管理がない
    Asset Bundles+Evaluation Gates(Decision 4)
  • 体系的な評価なしで動かしている
    その分野の専門家の判断基準に合わせたLLM Judge(AI評価システム)を用意する(Decision 2) 

まとめ

セッションの最後にRao氏がスライドに掲げた一文が印象的でした。


「Treat evaluation as a first-class citizen, not an afterthought. It is what turns an impressive demo into a system you can trust.」(評価をファーストクラスとして扱え。それが、印象的なデモを信頼できるシステムに変えるものだ。)

おまけ

セッションを待つ列に並んでいる間、隣に居合わせた方々とお話しする機会がありました。
お一人はヘルスケア関連企業、もうお一人は製薬会社にお勤めの方で、それぞれ自社のデータパイプラインをDatabricksで構築したり、AIエージェントを開発されているとのことでした。
国が違っても、同じツールを使い同じ課題に向き合っている。そのことを現地で肌で感じられたのは、カンファレンスならではの体験でした。

このページをシェアする: