楽屋

統計検定2級のために覚えるべき確率分布・推定・検定

こんにちは。データ事業1部のマツザキです。

樹木の生態生理学の研究で学位を取ったあと、データ解析を活用したシロイヌナズナ、イネ、トマトの生理学の研究を経て、DATUM STUDIO に入りました。

基本的な統計学の知識の強化のため、統計検定2級を受けることにしました。
数式を覚えるのが苦手なので、苦労しています。

そこで、2015-2017年の過去問の出題例をもとに、最低限覚える必要がある確率分布、推定、検定の数式をまとめてみました。

確率分布とその期待値、分散

二項分布

ベルヌーイ試行(成功と失敗のような二種類の結果になる確率がそれぞれ \(p\), \(1-p\)である、独立な試行)を \(n\) 回繰り返した時、成功する回数 \(x\) の分布です。 \(n=1\) の時、ベルヌーイ分布と呼びます。期待値と分散は、後で区間推定の項目で示すように、正規分布による近似に使えます。

確率分布期待値分散
\[ {}_n C_x p^x (1-p)^{n-x} \]\[ np \]\[ np(1-p) \]

ポアソン分布

二項分布において、\(n\)が大きく、\(p\)が小さい場合の成功回数の分布です。期待値と分散は同じで、これらも後で区間推定の項目で示すように、正規分布による近似に使えます。

確率分布期待値分散
\[ \frac{e^{-\lambda}\lambda^x}{x!} \]\[ \lambda \]\[ \lambda \]

幾何分布

成功確率 \(p\) のベルヌーイ試行が最初に成功するまでに必要な試行回数 \(x\) の確率分布です。

確率分布期待値分散
\[ p(1-p)^{x-1} \]\[ \frac{1}{p} \]\[ \frac{1-p}{p^2} \]

区間推定

正規分布における、母分散 \( \sigma \) が既知の場合の母平均の \( 100(1-\alpha)\% \) 信頼区間

標本平均を \( \bar{X} \)、サンプル数を \( n \)とします。\( Z_{\alpha/2} \) は標準正規分布において上側確率が \( \alpha/2 \) となる値を示します。

\[ \bigl[ \bar{X} \ – Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{X} + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \bigr] \]

正規分布における、母分散が未知の場合の母平均の \( 100(1-\alpha)\% \) 信頼区間

標本平均を \( \bar{X} \)、標本標準偏差を \( s \)、サンプル数を \( n \)とします。\( t_{\alpha/2}(n-1) \) は自由度 \( n-1 \) の \( t \) 分布において上側確率が \( \alpha/2 \) となる値を示します。

\[ \bigl[ \bar{X} \ – t_{\alpha/2}(n-1)\frac{s}{\sqrt{n}}, \bar{X} + t_{\alpha/2}(t-1)\frac{s}{\sqrt{n}} \bigr] \]

ベルヌーイ分布における、成功確率 \( p \) の \( 100(1-\alpha)\% \) 信頼区間

標本平均で推定した成功確率を \( \hat{p} \)、サンプル数を \( n \)とします。\( n \) が大きい時、ベルヌーイ分布は標準正規分布で近似でき、その分散は \( \hat{p}(1-\hat{p}) \) なので、正規分布に従うサンプルの母平均の信頼区間と同様に求まります。

\[ \bigl[ \hat{p} \ – Z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}, \hat{p} + Z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \bigr] \]

ポアソン分布における、平均と分散 \( \lambda \) の \( 100(1-\alpha)\% \) 信頼区間

標本平均で推定した平均と分散を\( \hat{\lambda} \) 、サンプル数を \( n \)とします。\( n \) が大きい時、ポアソン分布は標準正規分布で近似でき、その分散は \( \hat{\lambda} \) なので、正規分布に従うサンプルの母平均の信頼区間と同様に求まります。

\[ \bigl[ \hat{\lambda} \ – Z_{\alpha/2}\frac{\sqrt{\hat{\lambda}}}{\sqrt{n}}, \hat{\lambda} + Z_{\alpha/2}\frac{\sqrt{\hat{\lambda}}}{\sqrt{n}} \bigr] \]

検定

母平均に関する \( t \) 検定

\( \bar{X} \) を標本平均、\( \mu \) を帰無仮説における母平均、\( s \) を標本標準偏差、 \( n \) をサンプル数とすると、検定統計量 \( t \) は次のようになります。

\[ t = \frac{\bar{X} – \mu}{s / \sqrt{n}} \]

有意水準 \( \alpha \) の両側検定(対立仮説が \( \mu \neq 基準値\)) の場合、 \( |t| > t_{\alpha/2}(n-1) \)の時、帰無仮説を棄却します。

右片側検定(対立仮説が \( \mu > 基準値\)) の場合は、 \( t > t_{\alpha}(n-1) \)の時、帰無仮説を棄却します。

左片側検定(対立仮説が \( \mu < 基準値\)) の場合は、 \( t < -t_{\alpha}(n-1) \)の時、帰無仮説を棄却します。

母分散の比に関する \( F \) 検定

\( s_1, s_2 \) をそれぞれグループ1、2の標本標準偏差、\( n_1, n_2 \) をそれぞれグループ1、2のサンプル数とすると、検定統計量 \( F \) は次のようになります。

\[ F = \frac{s_1^2}{s_2^2} \]

有意水準 \( \alpha \) の両側検定の場合、 \( F > F_{\alpha/2}(n_1-1, n_2-1) \) の時、母分散の比が \( 1 \) であるという帰無仮説を棄却します。

適合度に関する \( \chi^2 \) 検定

\( k \) 種のカテゴリーがあり、カテゴリー \( i \) における理論度数を \( E_i \)、観測度数を \( O_i \) とすると、検定統計量 \( \chi^2 \) は次のようになります。 \[ \chi^2 = \sum_{i=1}^{k} \frac{(O_i – E_i)^2}{E_i} \] \( \chi^2_{\alpha}(k-1) \) を自由度 \( k-1 \) の \( \chi^2 \) 分布の\( 100 \ \alpha \ \% \) 点とすると、 \[ \chi^2 > \chi^2_{\alpha}(k-1) \] の時、観測度数が理論度数に適合しているという帰無仮説を有意水準 \( \alpha \) で棄却します。

独立性に関する \( \chi^2 \) 検定

\( r \) 種のカテゴリーを持つ属性と、 \( c \) 種のカテゴリーを持つ属性で分割表を作ることを考えます。 分割表の各マスの観測度数を \( O_{ij} \)、二つの属性が独立と仮定して求めた期待度数を \( E_{ij} \) とすると、検定統計量 \( \chi^2 \) は次のようになります。 \[ \chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} – E_{ij})^2}{E_{ij}} \] \( \chi^2_{\alpha}\{(r-1)(c-1)\} \) を自由度 \( (r-1)(c-1) \) の \( \chi^2 \) 分布の \( 100 \ \alpha \ \% \) 点とすると、 \[ \chi^2 > \chi^2_{\alpha}\{(r-1)(c-1)\} \] の時、二つの属性が独立であるという帰無仮説を有意水準 \( \alpha \) で棄却します。

一元配置分散分析

\( k \) 個のグループのうち、 \( i \) 番目のグループの \( j \) 番目のサンプルを \( x_{ij} \) 、\( i \) 番目のグループの平均を \( \bar{x_i} \)、全グループのサンプルを通した平均を \( \bar{\bar{x}} \) とします。その時、分散分析表は次のように書けます。

 偏差平方和自由度分散分散比
グループ間変動\[ S_A = \sum_{i=1}^{k} n_i(\bar{x_i} – \bar{\bar{x}})^2 \]\[ df_A = k-1 \]\[ s_A^2 = \frac{S_A}{df_A} \]\[ F = \frac{s_A^2}{s_E^2} \]
グループ内変動\[ S_E = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} – \bar{x_i})^2 \]\[ df_E = N-k \]\[ s_E^2 = \frac{S_E}{df_E} \] 

\( F_{\alpha}(df_A, df_E) \) を自由度 \( df_A \), \( df_E \) の \( F \) 分布の \( 100 \ \alpha \ \% \) 点とすると、 \[ F > F_{\alpha}(df_A, df_E) \] の時、全てのグループの平均の間に差がないとする帰無仮説を有意水準 \( \alpha \) で棄却します。

いかがでしょうか。学習の参考になれば幸いです。