ロゴ
FV画像 FV画像

BACKSTAGE

樹木モデル概論

こんにちは!DATUM STUDIO株式会社 データ事業部冨田です。今回は”樹木モデル”のご紹介をしたいと思います。 樹木モデルは回帰分析(予測)およびデータの分類に用いられる手法で、教師あり学習に分類されます。 樹木モデルは、教師データをもとにある数理的基準にのっとって、ある結論(決定)に至る分岐のルールを作成するモデルです。総じて解釈が容易で、「何がどの程度重要なのか」が判別できるため、意思決定に活かしやすいというメリットがあります。 専門的な話になりますが、データの分布型を問わない、外れ値に対して頑健、離散値か連続値かといったデータの型に関わらず用いることができる、といったメリットもあります。 さて、今回は樹木モデルのもっとも代表的な例である”決定木”に焦点をあて、データの分類を目的としたシチュエーションを例に、樹木モデルとその活用方法をご説明いたします。 下記図をご覧ください。 有料会員か無料会員かどちらにどのような割合で「決定」されるのか、会員データを元に作成した決定木です。全体を見ると、二つの枝は3つの梢で終わっています。これがそのまま、ある決定に資するグループになります。 まず、最初に「年代」を基準にグループが分岐し、10代・20代か30代かで大きなグループに分割されています。もっとも大きなグループを作る分岐軸がこの決定木では「年代」ということを意味しています。ついで、「性別」を軸に新たな分岐が生まれています。女性か男性、ですね。30代で別れた”枝”の方はそのまま決定に至っています。お察しの通り、2つ目のグループ分けの分岐軸が「性別」ということを意味しています。総合すると、無料会員と有料会員の割合は、「10,20代女性」「10,20代男性」「30代」でグルーピングすればうまく決定できそうだとわかります。 このような情報は、例えば「有料会員を増やすためのキャンペーン」を打つ際に役立ちます。決定木を見ると「10,20代女性」の無料会員がもっとも多く、キャンペーンはこのグループに向けて行えば良いのでは、などと考えることができます。もちろんさらにそこから、「どのようなキャンペーンが効果的か」「そのキャンペーンの結果はどうなりそうか」なども決定木を用いて分析・予測することも可能です。 ところで、決定木の分岐軸は何を基準にして作られるのでしょうか。数多くありますが、代表的なものは下記の三種類です。
  • ジニ係数
  • エントロピー
  • カイ二乗値
次回以降、上記の代表的な基準とその特徴をそれぞれ解説していきます。お楽しみに!