楽屋

機械学習におけるモデルの選択方法について

本日のブログ内容は機械学習を用いる際に、どのモデルを使えばよいかの選択基準についてです。 機械学習には下記にまとめるように様々な手法があり、どの様な状況でどのモデルを選べば良いか判断に困ることもあるでしょう。そこで各手法について定性的に長所・短所を俯瞰してみたいと思います。 主な機械学習手法には、以下のようなものがあります。
  • k-means クラスタリング(k-means clustering)
  • 主成分分析(Principal Component Analysis:PCA)
  • 線形判別/回帰(Linear classification/regression)
  • ロジスティック判別/回帰(Logistic classification/regression)
  • ディープラーニング(Deep Learning)
  • サポートベクタマシン/回帰(Support Vector Machine/Regression)
  • CART(Classification And Regression Tree)
判別や回帰問題の手法に着目するとき、モデル選択の評価として重要なのは「予測精度」と「中身のわかりやすさ」の二点です。 予測精度は学習から得られたモデル(近似関数)が判別や回帰の値をどれだけ正確に出力するかという指標で、訓練データのみ精度が高くその他で精度が低い過学習の問題を解消できるならば非線形性を有する手法ほど精度が高い傾向にあります。 一方中身のわかりやすさは、モデルをひとつの入出力器とみなした場合、入力に相当する説明変数と出力に相当する目的変数(予測値)間の関係が陽に解釈できるかどうかに依存します。入出力の関係性がパラメータなどを通して理解し易いならば、モデルはホワイトボックスとして因果類推に役立ちます。入出力の関係性が陽でないブラックボックスなモデルの場合は如何に精度が高くとも説明変数の何がどれほど予測結果に寄与しているか言及できません。  各手法について「予測精度」と「中身のわかりやすさ」を基準に図示すると以下のようになります。 線形判別/回帰は中身がわかりやすいが予測精度に欠けるのに対して、ディープラーニングは中身がわからないものの抜群の予測精度を誇るなど二つの基準が両立しにくい特徴が伺えます。換言すれば予測精度の向上に中身のわかりやすさが犠牲になっているとも表現できます。 例外的にCARTは「予測精度」と「中身のわかりやすさ」を両立する位置に存在します。CARTに属するランダムフォレスト(Random Forest)が汎用的な手法として支持される理由も二つの基準をよい塩梅で満足するからと言えるでしょう。

このように判別や回帰問題に対する機械学習の手法は「予測精度」と「中身のわかりやすさ」の基準において各々が長所と短所を有します。したがって分析の目的に応じて手法の特徴を鑑みモデルを選択することが肝要です。例えば、

  • 説明変数の予測値への寄与を大雑把に知りたい:線形判別/回帰
  • 予測値の正確性が命:ディープラーニング、サポートベクタマシン/回帰
  • 予測精度が実用的で因果関係の類推も行いたい:CART(ランダムフォレスト)
などの事例が考えられます。読者の皆様も機械学習のモデル選択に本ブログ内容を参考にされてはどうですか?