楽屋

線形回帰分析の着眼点と漸近理論 (1)

はじめに

数ある統計分析の手法の中でも最も基本的な線形回帰分析。
みなさんは線形回帰がどんな分析手法か正しく理解出来ていますか?
正しいシチュエーションで使いこなせていますか?

ある分析課題において線形回帰が適切な分析手法とみなせるのは次のような状況であるというのが、多くのデータ分析者の共通見解ではないでしょうか。

1. 分析対象となるxとyの関係が線形モデルで表現出来る
2. 多重共線性の問題が発生していない
3. yが正規分布に従っている

1と2については特に異論は無いでしょう。問題は3です。データ分析業界におけるバイブルのひとつとしてあげられる久保(2012)には以下のような記述があります。

「(中略)これらの分析手法は、データのばらつきが等分散正規分布であることを仮定しています」
「『正規分布が前提』のLMに対して(中略)」

やはり線形回帰モデルではyが(誤差項が)正規分布に従うと仮定されていると考えるのが一般的なようです。実際、多くの実務家の分析者が次のような考えを持っているように思います。

「現実のビジネスデータでは目的変数が綺麗な正規分布の形をしていることはほとんどない。従って誤差項が正規分布に従うことを仮定している線形回帰モデルは分析手法として望ましくないことが多い。」

ですがこれらは本当に正しいのでしょうか?
結論から言えば、半分正しく半分誤りであると言えます。
誤差項が正規分布に従うと仮定出来る場合に、線形回帰が「望ましい」分析手法であることは間違いありません。
しかし誤差項の正規性を仮定せずとも、線形回帰によりある程度「望ましい」分析が可能になります。

では「望ましい」とは一体何なのでしょうか。
またモデルがどのような仮定を満たす場合に、線形回帰分析が「望ましい」と言えるのでしょうか。

本シリーズでは二本立てで線形モデルとその推定量の性質について連載します。今回の記事では、線形モデルのパラメータを推定する推定量が持つべき望ましい性質とは何か、またそのような性質がどのような仮定に支えられているのかをご紹介します。次回の記事では、特に線形モデルが誤差項の正規性を満たさない場合に推定量がどのような性質を持つのかを、漸近理論に触れながら考えてみます(つまりタイトルで漸近理論と銘打ってはいますが、推定量の漸近的性質を扱うのは次回の記事からです)。

OLS推定量の性質

本稿では、回帰分析について統計学の教科書に書かれているような標準的な内容をご紹介します。サンプルサイズが有限であっても成り立つような性質(finite sample properties)について取り扱います。

モデルの仮定

まず、この連載シリーズを通じて線形モデルとその推定量の性質を議論するのに必要な3つの仮定(A1-A3)を以下であげ、それぞれ簡単に説明します。

A1. 線形性: \(\quad y = X\beta + \epsilon\)

第一に、分析対象の\(X\)と\(y\)がパラメータに関して線形的な関係で表すことが出来るという仮定が必要です。\(\beta\)は\(X\)と\(y\)の関係を表すパラメータです。\(\epsilon\)は\(y\)に影響を与える要因のうち\(X\)以外の部分で、データで観察出来ない変数であるとします。

A2. フルランク性: \(\quad\) \(X\) はランク\(K\) の \(n \times K\) 行列

この仮定は多重共線性が発生しないことを保証するために必要となります。
直感的に説明すると、例えば自動車の販売台数を自動車の価格で説明するモデルにおいて、\(X\)に円で測った価格\(x_1\)と10,000円単位で測った価格\(x_2\)の両方が含まれているような事態が発生していないことを意味します。

A3. 外生性: \(\quad \text{E}[\epsilon | X] = 0\)

\(y\) を説明する要因のうちデータで観察不能な部分である\(\epsilon\)について、\(X\)がいかなる値であっても\(\epsilon\)の期待値は\(X\)に依存せず0のままであるという仮定です。モデルの誤差である\(\epsilon\)がピュアなノイズであることを意味します。自動車のモデルの例では、\(\epsilon\)に製品の質という変数が含まれていて、質の高い自動車ほど価格が高いとすると、\(x_1\)と\(\epsilon\)に正の相関が生じ、この仮定は満たされなくなります。

以下ではこれらの3つの仮定が満たされるものとします。

OLS推定量の不偏性

では\(\beta\)の値をどのように推定すれば良いでしょうか。パラメータ\(b\)について残差\(e = y – X b\)を定義し、残差の二乗和を最小化するような\(b\)の値を求めましょう。このような推定量をOLS推定量と呼びます。

$$\min_b e^Te = (y – Xb)^T(y – Xb)$$

\(b=\hat{\beta}_{OLS}\)を上式の解とすると、\(\hat{\beta}_{OLS}\)は以下の条件を満たします。


$$X^TX\hat{\beta}_{OLS} = X^Ty$$

A2より\((X^TX)^{-1}\)が存在するため、\(\hat{\beta}_{OLS}\)は以下の通り求められます。

$$\begin{align}
\hat{\beta}_{OLS} &= (X^TX)^{-1}X^Ty \\
&= \beta + (X^TX)^{-1}X^T\epsilon
\end{align}$$

A3より\(\text{E}[X^T\epsilon]=0\)となるため、OLS推定量の期待値が以下のように表せます。

$$\text{E}[\hat{\beta}_{OLS}] = \beta$$

OLS推定量\(\hat{\beta}_{OLS}\)の期待値は真のパラメータの値\(\beta\)と等しくなっています。このように、その期待値と真のパラメータの値が等しくなるような性質を持つ推定量を不偏推定量と呼びます\(\hat{\beta}_{OLS}=Py\)という\(y\)の線形関数で表せるため、線形不偏推定量とも呼ばれます)。

OLS推定量の不偏性を導くのにA2とA3の仮定が本質的な役割を果たしていることに注意してください。
つまり、\(y\)を説明する要因を「モレなく(A3)ダブりなく(A2)」モデル化出来ることが、線形モデルのパラメータの正しい推定値を得るための必要十分条件となります。

OLS推定量の有効性

前セクションではOLS推定量の期待値について議論しました。では分散についてはどうでしょう。分散について議論するのに必要となる仮定をもうひとつ追加します。

A4. 等分散性: \(\quad \text{Var}[\epsilon | X] = \sigma^2\)

自動車の販売台数を価格で説明するモデルの例では、価格の高い自動車ほど販売台数のばらつきが大きいことがあるかもしれません。そのような不均一分散が生じていないという仮定です。

A4が満たされると仮定すると、OLS推定量の分散は以下の通り求められます(計算は略)。

$$\text{Var}[\hat{\beta}_{OLS}] = \sigma^2 (X^TX)^{-1}$$

また、A1〜A4が満たされるとき、OLS推定量は線形不偏推定量の中で分散が最小(有効)となることが知られており、これをガウスマルコフの定理と呼びます(証明は大抵の統計学の教科書に載っているのでそちらを参照してください)。このような性質のために、OLS推定量は最良線形不偏推定量(Best Linear Unbiased Estimator, BLUE)と呼ばれています。

OLS推定量の正規性

ここまでで推定量の期待値と分散を求めました。更に推定量の分布を特定出来れば、信頼区間を計算して統計的推測を行うことが出来るようになります。OLS推定量の分布を特定するために以下を仮定します。

A5. 正規性: \(\quad \epsilon | X \sim N[0, \sigma^2 I]\)

前述のOLS推定量の平均と分散を用いて、\(\hat{\beta}_{OLS}\)の分布を以下のように表すことが出来ます。

$$\hat{\beta}_{OLS} | X \sim N[\beta, \sigma^2 (X^TX)^{-1}]$$

OLS推定量の性質まとめ

改めてOLS推定量の性質と、その性質を導くために必要な仮定との対応関係を挙げておきます。

・不偏性: A1〜A3
・BLUE: A1〜A4
・正規性: A1〜A5

①「推定量の期待値が真のパラメータの値と等しくなる」という性質と、②「そのような推定量の中で分散が最小となる」という性質を導くのには誤差項の正規性(A5)は必要ないことが分かります。ただし、③「推定量が正規分布に従う(従って信頼区間を用いた統計的推測が可能となる)」ためには、誤差項の正規性の仮定が必要となります。これら3つの性質が満たされていれば、OLS推定量は「望ましい」性質を持っていると言えそうです。すなわち、サンプルサイズが有限のケースでは、現実の分析対象がA1〜A5を満たしていると言えるかどうかが、線形回帰分析が分析手法として望ましいか否かの分水嶺となるでしょう。

しかし、実際のビジネスデータでは誤差項が正規分布に従う場合の方がレアケースです。A5を仮定せずになんとか線形回帰分析が出来ないものでしょうか。次回の記事では、誤差項の分布が未知である(ついでに不均一分散となる)場合の線形モデルと、そのようなモデルのパラメータのOLS推定量の性質について扱います。お楽しみに!