CUIファーストなあなたに!分析がはかどるAzure Machine Learning servicesはいかがでしょうか

概要

Azure Machine Learning StudioとAzure Machine Learning servicesの違い、Azure Machine Learning servicesの、データの前処理と学習についてのチュートリアルページの紹介、実際にチュートリアルページを実行してみて特徴的だったな点、便利だと思った点を紹介しようと思います。

Azure Machine Learning Studio とは

イメージ
 
Azure Machine Learning と聞くと、こちらを想像する方が多いのではないかと思います。

従来Azure Machine Learningと呼ばれていたこのサービスが、現在では、Azure Machine Learning Studioと名前を変えております。

Azure Machine Learning Studioでは、ドラックアンドドロップでデータやモジュールなどを選択し、パラメータを入力、それらのノードをつなぐことにより、一連の分析、評価を行うことが容易にできました。何と言っても、GUIでスクリプトの記載なしに誰でも容易に分析ができることが特徴的でした。(もちろん自分でPythonスクリプトなどを記載するノードをつなぐこともできます。)

 Azure Machine Learning services とは

イメージ1

イメージ2

2017年9月25日~29日に米国で開催されたMicrosoft Ignite 2017において、発表された新しいサービスです。

  • Azure Machine Learning Workbench(環境のセットアップ、実行結果の視覚化)、
  • Azure Machine Learning Experimentation (実験の管理、記録などを行う)、
  • Azure Machine Learning Model Management  (モデルの管理、バージョン管理などを行う)

といったサービスの総称で、Azure Machine Learning Studioと打って変わりCUIファーストでありながらも、グラフィカルな面もあり、データの把握、処理、が容易になる他、他ツールとの連携などの面においても優れており、本格的なデータ分析を行うための一連の流れをより扱いやすくしてくれます。

以下に、workbenchのインストールから、データの前処理、モデルの構築を行うまでのチュートリアルページの紹介と、特徴的なポイントの紹介を行いたいと思います。

Workbenchのインストール

インストール方法はこちら

データ分析のプロジェクトごとの管理や結果の視覚化を行うためのWindows/macOS向けアプリケーションです。このインストールでは、同時にMinicondaやAzure ML CLIなどが同時にインストールされ、分析を行うための環境が構築されます。ここで、プロジェクトの作成を行い、データ読み込みから処理を行っていきます。

データ準備

チュートリアルページはこちら

ここでは、あやめの花のデータについて、簡単な前処理を行う方法が紹介されており、マウス操作のみで実行可能なため、スクリプト記述が苦手な方でも扱いやすくなっています。

主な特徴は以下です。

見出し番号特徴
Create a data preparation package
6
Metricsボタンから、各列の統計量やヒストグラムがすぐに参照可能です。
Create a data preparation package
9
中のデータを見ながら、選択した列に適用できる処理
(列の削除や要約値の算出など)の一覧が表示されます。
Create a data preparation package
11
現在のデータを作成するまでのステップが表示されており、
不必要な過程は削除することですぐにデータを変更できます。
Create a data preparation package
12
 この実行は、dprepファイルに自動で保存されています。

(参考)高度な前処理について

チュートリアルページはこちら

データの準備を行うにあたり、上記で紹介した機能以外にも様々な機能や処理方法が紹介されています。

  • ファイルを読み込む際、ファイルのエンコーデイングや、セパレータ、各列の型などを推定する機能
  • 新しい列を作成する際、2行ほどサンプルを手動入力すると、入力したサンプルや他列からパターンを推定して入力を行う機能(PROSEとよばれています。)
  • データの結合方法
  • スクリプトからの列の生成方法
  • 要約値の算出方法

モデルの構築

チュートリアルページはこちら

ここでは、あやめの花についての分類モデルの構築を行う方法が紹介されています。特徴的な機能は以下です。

見出し番号特徴
Execute iris_sklearn.py script in a local environment
5
実行環境、適用するスクリプト、引数が一見してわかります。
Review the run history in detail
1~5
過去実行を行った学習済みモデルの性能、出力物などの履歴を保持しているため、複数回にわたる実行の結果比較がしやすく、一番性能の良い学習結果を学習済みモデルとして採用することが容易になります。
また、学習済みモデルは.pklファイルなどの形式で出力することができます。

環境については、ローカル以外にもDockerで実行することができる他、WorkbenchのようなGUIからではなく、コマンドラインウィンドウからの実行も可能です。

さいごに

いかがでしたでしょうか。CUIファーストでありながらも、データ把握において視覚的で、ちょっとしたデータ加工であればスクリプト記載なしに行うことができること、学習の試行錯誤の面においても、過去実行を保持しており最適な学習結果を選択することが容易なことなどにおいて、分析がはかどるのではないかと思います。

また、チュートリアルページがとても丁寧なので、入門しやすくなっています。少しでも興味を持っていただけたら幸いです。

このページをシェアする: