楽屋

統計的仮説検定とp値

統計的仮説検定とは

「仮説検定」は、統計的仮説の「有意性」の検定である。仮説の下でわれわれが期待するものと、観測した結果との違いを、これらの差が単に「偶然」によって起こったものか否かという見地から、確率の基準で評価する。

東京大学教養学部統計学教室 (編) (1991). 『統計学入門』 東京大学出版

なるほど、わからん!!、という人向けに本記事は書かれています。なお、本記事中のコードはR言語によるものです。

知りたいと思っている、集団全体やその集団の属性値 (身長など) の集まりのことを、母集団と呼びます。母集団について完全に知ることは、費用や労力の観点より現実的でなかったり、未来の事項などそもそも知りようもなかったりと、往々にして困難です。

仮説検定の目的は、限られた手持ちのデータ (標本) に基づいて、我々が関心を抱いている母集団について、仮説を検証することです。



帰無仮説と対立仮説

仮説検定では最初に、関心を抱いている集団全体 (母集団) について、差がない、影響がない、といった帰無仮説と呼ばれる仮説と、差がある、影響がある、といった対立仮説と呼ばれる仮説とを用意します。

手持ちのデータが帰無仮説に従っていないこと、つまり帰無仮説が誤っているだろうということを示し (帰無仮説の棄却)、そしてそのことで、帰無仮説とは否定の関係にある対立仮説を正しいと主張する (対立仮説の採択)、統計的仮説検定とはそのような手法です。

どうやって帰無仮説が誤っているだろうことを示すのかは後述しますので、ひとまず流しておいてください。

具体例で見てみましょう、あるアーティストのファンクラブをイメージしてください。“男性会員と女性会員とでは客単価が異なる”、と主張したいとします。その場合、帰無仮説と対立仮説は以下のようになります。

帰無仮説:男性会員と女性会員の客単価には差が無い対立仮説:男性会員と女性会員の客単価には差がある (客単価が異なる)

あなたは手持ちのデータ (標本) より、“男性会員と女性会員の客単価には差が無い”、といる帰無仮説が誤っているだろうということを示すことで (帰無仮説の棄却)、“男性会員と女性会員の客単価には差がある”、という対立仮説を主張することができます (対立仮説の採択)。

ここで注意が必要なのは、帰無仮説を棄却できなかった場合です。誤っているとは言えない ≠ 正しい、であり手持ちのデータと帰無仮説は矛盾しない、と示されただけなのです。



第1種の過誤と第2種の過誤

ある人曰く、D◯TUM社員は太ましいとかなにやら。なんていうことでしょう! それでは例として、D◯TUM社員の平均体重は80kgであるかどうか、という問題について考えてみます。

その場合、帰無仮説と対立仮説は以下のようになります。

帰無仮説:D◯TUM社員の平均体重は80kgと差がない。
対立仮説:D◯TUM社員の平均体重は80kgと差がある。

母集団における仮説の真偽と、仮説検定の結果には下表のように4通りの組み合わせが考えられます。

真実:体重は80kgと差がある
(帰無仮説は誤り)
真実:体重は80kgと差がない
(帰無仮説が正しい)
検定結果:体重は80kgと差がある
(帰無仮説を棄却)
検定結果は正しい ①:第一種の過誤
検定結果:体重は80kgと差がない
(帰無仮説を棄却しない)
②:第二種の過誤 検定結果は正しい

そのうち、①:帰無仮説が正しい場合に帰無仮説を棄却してしまうことを、第一種の過誤などと呼び、また、②:帰無仮説が正しくない (対立仮説が正しい) 場合に帰無仮説を棄却できないことを、第二種の過誤などと呼びます。

統計的仮説検定に限らず、一般的な真偽の判断において、第一種の過誤を犯さないことに重点が置かれます。つまり、〜ではない、にも関わらず、〜である、と判断してしまう可能性を一定以下に抑えるようにします。第一種の過誤を犯す確率は有意水準と呼ばれ、αで表されます、αの値には伝統的に5%が用いられる事が多いです。

これは、5%以下の確率でしか発生しないことは、たまたま起こるとは言えない稀な出来事、と見なしているとも言えます。



検定統計量 t値

それでは、これまで先延ばしにしてきた帰無仮説を棄却する方法を見ていきます。

仮説検定では、手持ちのデータ (標本) の平均値や値のばらつきといった情報をまとめた値を用います。この値のことを検定統計量と言い、実際の標本を用いて計算した検定統計量のことを統計量の実現値と呼びます。2つの平均値の比較などではt統計量 (t値)を用います。

例えば、前述のD◯TUM社員の平均体重の例では (1つの標本の平均値を利用する検定 → 1標本t検定; t値の正確な式は後述)、 \( \displaystyle t値= \frac{\mbox{標本の平均値と80kgとの差}}{\mbox{(標本の値のばらつき度合い / 標本の要素数の多さ)}} \) 標本の平均値と80kgとの差が大きければ大きいほど、母集団の平均値と80kgとの差はありそうですし(分子)、値がばらついていない標本ほど、また多くの要素からなる標本ほど、その平均値と80kgとの差は信用できそうですよね(分母)? 検定統計量は、帰無仮説にそぐわず、対立仮説にあっている場合ほど、ゼロから離れた値をとります。

p値

帰無仮説を正しいと仮定した際に、統計量の実現値を超える統計量がたまたま得られる確率のことをp値と言います。p値が小さければ、標本から算出された統計量の実現値はたまたま得られたものではない、と主張できます。

例えば、10人のD◯TUM社員の体重データを元に、D◯TUM社員の平均体重80kg問題 (1標本t検定) を考えるとします。もし 仮に、D◯TUM社員の平均体重は80kgと差がない、という帰無仮説が正しいとします。D◯TUM社員 (仮) の平均体重は80kgですので、当然標本の平均体重 (仮) と80kgの差は小さく、よってt値も小さな値となるでしょう。しかし選んだ社員 (仮) によっては、たまたま高いt値が出ることもありそうです。このような、帰無仮説が正しいという仮定の元で得られるであろう統計量が、実際の標本から算出された統計量の実現値を超える確率がp値です。

p値 < 有意水準α である時、帰無仮説が正しいという仮定は妥当なものではないとして、帰無仮説を棄却し、対立仮説を採択します。またこの時、有意差がある、などという言い方をします。

1標本t検定の例

それでは実際にD◯TUM社員の体重の例で1標本t検定を行ってみます(注意:本節の話は全てフィクションです)。

帰無仮説は、D◯TUM社員の平均体重は80kgと差がない (80kgである)、対立仮説は、D◯TUM社員の平均体重は80kgと差がある (80kgではない)、となります。

D◯TUM社員をランダムに10人捕らえて体重を測定したところ、

でした。

サンプルサイズ、平均値、ばらつきの指標である標準偏差を求めて見ますと、

です。

統計量のt値は、80kgと平均値との差、ばらつき、およびサンプルサイズの平方根より算出されます。

そして、差がない、という帰無仮説が正しいという仮定のもと、たまたまこれよりも絶対値が小さなt値が得られる確率 (p値) は、以下のようになります。

この値は0.05 (有意水準α) よりも小さいため、
帰無仮説:D◯TUM社員の平均体重は80kgと差がない (80kgである)、は棄却され、
対立仮説:D◯TUM社員の平均体重は80kgと差がある (80kgではない)、が採択されます。

これは、D◯TUM社員の平均体重は80kgと有意な差がある、と言うこともできます。

以下のようにRさんに一発でやってもらうこともできますが、p値の算出に用いられるt値は、平均値、ばらつき、サンプルサイズ全てを考慮した値であることをご留意ください。

参考文献

  • 東京大学教養学部統計学教室 (編) (1991). 『統計学入門』 東京大学出版会
  • 山田剛史ほか (2008).『Rによるやさしい統計学』 オーム社
  • 馬場真哉 (2015). 『平均・分散から始める一般化線形モデル入門』 プレアデス出版