楽屋

線形回帰分析

こんにちわ、DATUM STUDIOの小幡です。 今回は「線形回帰分析」についてお話します。 「線形回帰」は「回帰分析」の一種ですので、まずは「回帰分析」についてお話ししていきましょう。 回帰分析とは何か、まずはwikipediaから引用してみましょう。
回帰(かいき、英: regression)とは、統計学において、 Y が連続値の時にデータに Y = f(X) というモデル(「定量的な関係の構造」)を当てはめる事。 別の言い方では、連続尺度の従属変数(目的変数)Y と独立変数(説明変数)X の間にモデルを当てはめること。 X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。Y が離散の場合は分類と言う。 (線形回帰より引用)
わかる気はしますが、いまいちわかりませんね。 以下のようなECサイトで例えてみましょう。
ECサイトID売上[万円]ユーザー数[人]
A1,000100
B1,20090
C800110
D900100
E1,500120
F1,300140
G70080
この表をグラフにしてわかりやすくしてみましょう。 グラフにしてみると、「ユーザー数が多ければ売り上げが大きい」という関係が見えてきました。この関係を数式で表してみると、売り上げ=定数A×ユーザー数+定数B売り上げ=定数A×ユーザー数+定数Bと表せます。A,Bはユーザー数や売り上げに依存しない定数を表しています。さらに、売り上げをY、ユーザー数をXとすれば、Y=AX+Bと表すことができます。このように、「変数」(売り上げ、ユーザー数)から「パラメータ」(A,B)を推定し、モデル化することを「回帰分析」と言います。この例の場合は、下図の赤線のように売り上げと数式の関係をモデル化することができました。

線形回帰分析

線形回帰分析とは、回帰分析の最も基本的なY=AX+Bの場合を示します。上記のECサイトの例がまさに「線形回帰分析」だったというわけです。 では、どのようにしてパラーメタA,Bを求めるのでしょうか。 代表的な手法の一つに「最小二乗法」という手法があります。これは、予測するモデルと元データの残差の二乗の和が最も小さくなるようにモデルを導き出す手法です。簡単に言えば、下図の黄色矢印の長さ(残差)を全て計算して、その合計が最も小さくなる直線を決めているのです。 ここで残差を二乗する理由は、残差にプラスとマイナスがあるためです。例えば、プラスとマイナスの残差が混在しているものをそのまま足し合わせてしまうと、それだけで値が小さくなってしまいます。このような影響を取り除くために残差を二乗しているのです。

まとめ

このように「線形回帰分析」によって、未知パラメータA,Bを特定しY=AX+Bというモデルを作成することができます。モデル化できたことによって、Yを予測することができます。 例えば、「売り上げ1,000万円達成」という目標のために、どれだけ「ユーザー数」が必要なのかがわかるので、KPI設定の参考にすることができますね。 以上、「線形回帰」についてのお話させていただきました。