1から始める研究 〜z検定とt検定の違い、不偏分散とは?〜

お気に入り数 8
小島 一範 岡山医療専門職大学 助教

今回の記事では、「z検定とt検定の違い」「不偏分散など不偏推定量とは」「母分散と標本分散と不偏分散の違い」について解説します。普段、なんとなくの理解で機械的に検定を行っていた方にとっては、目の前にあるモヤモヤが晴れたように理解が深まることになると思います。

検定とは?

まず、「検定」という用語について解説します。

統計において、検定とは「仮説検定」のことを指します。これは、「母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ」とされています。(Wikipedia「仮説検定」:https://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A

「母集団」や「標本」は、これまでの記事で学校のテスト結果の例を用いて示してきました。学年全体(400名)を「母集団」としたときのA〜Gさんの7名のテスト結果が「標本」ということでしたね。

これを用いて「仮説検定」を例えるなら… ・7名の平均点は、学年全体の平均点と比べて高いのか低いのか同じなのか ・7名の平均点は、学年内の別の7名のグループより高いのか低いのか同じなのか ・7名の平均点は、前回受けたテストの点数より高くなったのか低くなったのか同じなのか などを判定するものと考えるようにしてみてください。

ちなみに、こういった仮説検定を行うなかで出てくる「帰無仮説」や「対立仮説」などは別の記事で解説したいと思います。

z検定とt検定との違い

つぎに、z検定とt検定との違いを解説します。

ただし、これら2つの検定を行えるのは、データが正規分布に従う(と考えられる)場合に限ります。そして、正規分布に従うということは、データの種類が「間隔尺度」や「比例尺度」でないといけません。その他の尺度の場合や、正規分布でないデータの場合は、別の検定方法を用いることになります。この前提を理解しておいてくださいね。

さて、本題に戻ります。

結論から言えば、z検定とt検定との違いは以下のようになります。 ・z検定は、母集団の分散(母分散)が分かっているときに使う ・t検定は、母集団の分散(母分散)が分かっていないときに使う これだけの違いです!

しかし、ちょっと待ってください。

・z検定は、母集団の分散(母分散)が分かっているときに使う…?

先ほど、「仮説検定」の定義は「母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ」とありましたよね。検定により母集団に関する仮説を検証したいのに、母集団の分散がすでに分かっていることってあるのでしょうか?

そうなのです…実際はほとんどありません。つまり、z検定を使うのは稀なケースとなるため、一般的によく使われてよく聞くのがt検定となるわけです。

それから、z検定では正規分布の式をそのまま使えますが、t検定では正規分布に似た「t分布」の式を用います。なので、z検定では以前、正規分布の標準化の話で出てきた「z値」で判定しますが、t検定ではz値に似た「t値」というもので判定します。

また、t分布を用いたt検定では、少ないサンプルサイズでも有意差がすぐに出てしまうこと(これをα(アルファ)エラーという)を防いでくれて、サンプルサイズが小さくても妥当な検定を行える、という利点もあります。

t検定の詳しい話やαエラーについては、別の記事でも解説していきたいと思います。

不偏分散など不偏推定量とは

さて、t検定などの仮説検定を行う際に、出てくるのが「標準誤差(SE)」です。

1から始める研究〜標準誤差と信頼区間との関係〜」においても、標準誤差の式が下のように表されることを説明してきました。

今回注目したいのは、この式に「母集団の標準偏差(σ)」が使われていることです。

先ほど、「t検定は、母集団の分散が分かっていないときに使う」という話でしたが、母集団の分散が分からないということは、母集団の標準偏差(σ)も分かりませんよね?「標準偏差の2乗」=「分散」ですから。

ではどうするのか。

母分散の代わりに「不偏分散」をあてはめるのです。

母分散と標本分散と不偏分散の違い

ここで「不偏分散」の登場です。

不偏分散を簡単に言えば、「標本分散を使って母分散(母集団の分散)を表したもの」となります。

「標本分散」については、そのまま標本の分散を導くことで算出できます。分散の算出方法は、「1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜」でも解説しています。

これまでに何度も登場するA〜Gさんというサンプルを使って標準偏差や分散を算出しましたね。このサンプルの分散が「標本分散」となります。

式で表すと下のようになります。

この標本の分散もしくは標準偏差は、「標本のバラつき」を表したものです。そもそも、元の母集団のなかから標本を抽出していますね。なので、母分散つまり「母集団のバラつき」も標本のバラつきと同じようなものであり同じような値をとることは想像できますよね。

「だったら先ほどの計算式の「母集団の標準偏差(σ)」のところに「標本の標準偏差」の値を入れたらいいんじゃな?」と思われるかもしれません。それはそれである意味悪くはないんですが、もう少し厳密に考えないといけないこともあります。

それは、標本の偏り(かたより)です。

下図のように、取り出した標本にはそれぞれ多少なりとも母集団からの偏りがあります。そのため、複数の標本を抽出すればそれだけ標本間でバラつきが出ます。つまり、1つだけの標本の結果では偏りがあるということです。

そこでこの偏りをなくそうとしたものとして、不偏分散が使われるようになりました。

不偏とは文字通り「偏らない」という意味です。この不偏分散を標本分散の代わりに用いることで、より母分散に近い値として推定することができます。

ちなみに不偏分散の計算方法は、実はとてもシンプルです。標本分散の計算式の中にあるサンプルサイズを表す「n」のところが「n-1」に置き換わっているだけの式になります。

「これだけでいいの?」と思われるかもしれませんが、これだけでいいんです。

ここで得られた不偏分散を母分散の代わりに当てはめていけば、上の標準誤差を出すことができ、t値などが分かり、検定が行えることになります。

しかし、「なぜ「n」のところが「n-1」に置き換わるだけでいいのか…?」と疑問が湧くかもしれません。こういった理由やカラクリについては、また別の記事で書いていきます。

企業への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

執筆者の他のコラム