1から始める研究 〜不偏分散の話、なぜn-1で割るのか~

お気に入り数 1
小島 一範 岡山医療専門職大学 助教

以前の記事で、z検定とt検定の違いについて説明し、そこで出てきたものが「不偏分散」というものでした。しかし、この「不偏分散」について、まだよく分かっていない人もいるかもしれません。
そこで今回は、統計を勉強していくと最初につまずきそうなポイントである、不偏分散について詳しく話していきたいと思います。

不偏分散とは

まずは「分散」についておさらいしておきましょう。

分散というのは、いわゆる「バラつき」を表す指標であり、この分散の平方根、つまりルートを付けたものが標準偏差になります。

参考記事:1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜

そして、母集団の分散のことを「母分散」といい、標本やサンプルの分散のことを「標本分散」といいます。

では、「不偏分散」とはなんでしょう⁇

不偏分散とは、「母分散を使って計算したいけれども、母分散の値が分からないので、標本のデータを使って代用したもの」となります。

1から始める研究 〜z検定とt検定の違い、不偏分散とは?〜」でも説明しています。

ここで1つ疑問が生じるかもしれません。

「え?母分散と標本分散って、同じ値をとるんじゃないの⁇」

私も最初はそう思っていました。

母集団の中から抽出したのが標本なので、その標本のばらつきである標本分散は、元の母集団のばらつきに等しいと思いますよね。

しかし、そう簡単ではないのです。

「標本分散」と「母分散」の違い

ここで「分散」を表す式を見てみましょう。

これは、A〜Gさんの7名を母集団として捉えたときには「母分散」の式になりますが、実は仮に学年全体を母集団とした時にはA〜Gさんの7名のサンプルにおける「標本分散」を表していることにもなるといえます。

じゃあやっぱり「標本分散」と「母分散」は同じ??

いえいえ、母集団の仮定が異なることに気をつけましょう。

ちなみに、分散に用いられる記号について、「σ(シグマ)」の2乗や「s」の2乗、「ν(ニュー)」の2乗など色々目にするかもしれませんが、基本的には「σ」は母集団を表すとき、「s」は標本を表すときに多く用いられます。

さて話を戻して、上の7名を標本としたときの分散(標本分散)を一般化すると次のようになります。

では、学年全体という母集団の分散を表す「不偏分散」はどうなるでしょうか?

結論から言うと以下の式になります。

これで「不偏分散」イコール「標本分散」ではないことが分かりますね。

ただ、この2つはよく似ています。

標本分散では人数である(N)が分母にきているのに対して、不偏分散では、人数より1人少ない(N-1)が分母にきています。この(N-1)のことを「自由度」と呼んだりします。

(N-1)の疑問

さあ、ではなぜ(N-1)なのでしょうか⁇

ここらへんがモヤモヤしてる人も多いと聞きます。私も、知らない時はモヤモヤしました。

分母が(N-1)と小さくなるということは、分散の値としては標本分散よりも少し大きくなるということです。

しかし、そのイメージをつかむことができればモヤモヤも晴れていきました。

なぜ、分散の値としては標本分散よりも少し大きくなるのか?

それは「標本の分散と比べて、実際の母集団の分散の方がバラつきが大きいと推定されるから」です。

さらにそれをなぜかといえば、「母集団の平均値はきっちり決まっているけど、標本の平均値はバラつきがあるから」です。

以前の記事にも書きましたが、一つの母集団からいくつか標本を取り出した場合、それぞれの標本には母集団からの偏りがそれぞれあります。

つまり今回抽出した標本の平均値が、母集団の平均値に完全には一致せずにバラついている分だけ、抽出した標本の分散よりも母集団の分散は少し大きいと推測されます。このことは何となく感覚的に分かるのではないかと思います。

これで納得してもらえたならそれはそれで本質を理解したことになるので、今回の不偏分散の理解としてはよしとしましょう。

しかしながら、もう一歩さらに考えると、次の疑問が出てくるかもしれません。

「なるほど、分母の(N)を(N-1)にすることで分母が少し小さくなって、結果的に全体が少し大きくなるってわけか…いやでも待てよ、何で(N-1)なんだ⁇ (N-2)じゃあダメなのか⁇」

たしかにそんな疑問も出てきますよね。

さて、(N-2)ではダメなのでしょうか⁇

これも次の式の変形を理解することで納得します。

まず、母分散を標本分散を使って表すとき、標本分散にさらに標本平均のバラつきを表す「σ^2/N」を足します(※「σ^2」は「σの2乗」の意)。

この「標本平均のバラつき」はルートをとると「標準誤差」になるものです. 参考記事:「1から始める研究〜標準偏差と標準誤差の違い、イメージで理解しよう!~

ここで、バラつきの部分を左辺に持ってきて「σ^2」で整理すると、

つまり左辺は

となります。そして、もう一度母分散「σ^2」についてまとめると、

となります。

これが「不偏分散」の式となります。

見事に分母の(N-1)がでてきましたね。

もし1つひとつの式変形が分からなくても、まとめたらこうなるんだな、と感じてもらえたらと思います。

今回、「不偏分散」に的を絞って、より詳しめに解説してみました。

今回の記事で少しでも疑問点が解決できれば幸いです。

主催者への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。 登録はこちら )