1から始める研究 〜中心極限定理のイメージをつかもう~

お気に入り数 0
小島 一範 岡山医療専門職大学 助教

統計を少し勉強していったら、「中心極限定理」という言葉を聞くことがあると思います。この「中心極限定理」…一見すると言葉は難しそうですが実は内容は単純で分かりやすいものです。
「でも、よくわからない!」という人もいますよね。
今回はそんな人のために、中心極限定理をイメージで理解できるように説明します。その上で、他の参考書などに書いてある式などの意味とこれまでの知識とを結びつけて完全な理解を目指します。

中心極限定理のイメージとは⁈

まずは中心極限定理がよくわからない人のために、そのイメージをつかんでもらいます。そのイメージは次のようなものです。

例えば、学年400人全員がテストを受けたとします。この学年400人全員の平均点を予想するのに、その中の1人であるAさんの点数だけを見て予想するよりも、7人ぐらいを集めてその平均を見て予想した方が、より正確に予想できる。

もっと言えば、7人と言わず100人とかの点数を平均した方がより学年平均に近づく精度が上がる。

以上、誤解を恐れずに言うと、これが「中心極限定理」のイメージです。

「・・・はぁ⁈ あたりまえでは⁈」 と思うかもしれませんが、これがまずはざっくりとしたイメージです。

つまり、もう少し一般的にあてはめて言うと、

「サンプルの平均(標本平均)で母集団の平均(母平均)を予想(推定)するときに、そのサンプルサイズ(n数)が大きければ大きいほど、精度を高く推定しやすいですよ」

という性質を表したのが「中心極限定理」の意味となります。

では、サンプルサイズが大きくなればどのぐらいの割合で精度を上げることができるのでしょうか?

実はこれ、すでに以前のコラムで扱った話なんです。

標準誤差との関係

どこで扱ったのか⁈それは、「標準誤差の話」や「信頼区間の話」のところです。

これらのコラムを参照してもらえれば分かるのですが、例えば7人をサンプル(標本1)として平均点を出しても、母平均とは多少なりともバラつきが生じます。

また別の7人を2つ目のサンプル(標本2)として平均を出しても、やはり母平均とのバラつきがあります。

このそれぞれの標本平均のバラつき具合を表したのが「標準誤差」でしたね。

そして標準誤差は次の式によって表されるのでしたね。

この式を見てみると、サンプルサイズ(n)が右辺の分数の分母にあるので、このサンプルサイズ(n)が大きければ大きいほど左辺の標準誤差(SE)は小さくなることがわかります。

標準誤差が小さくなるということは、バラつき具合が少なくなる、という意味です。

ほら、今回の「中心極限定理」の話につながってきませんか!?

中心極限定理の定義、大数の法則

そして、他の参考書などに書いてある元々本来の「中心極限定理」の定義をここで初めて記載すると、

「標本が平均 μ,標準偏差 σ のある母集団の分布に従うならば、大きさ n の無作為な標本に基づく標本平均 は、n が大きくなるにしたがい、平均(μ)、標準偏差(σ/√n)の正規分布に近似できる」

となります1)2)3)。

この定義をよーく見てください。「標準偏差(σ/√n)」・・・これって、上記の「標準誤差(SE)」のことですよね!

つまり、「中心極限定理」の意味するところは、「n が大きくなれば、標本平均は母平均に近づくし、その標本平均の「標準偏差」は「標準誤差」を表していますよ」ということに他なりません。

つながったでしょうか!?

ちなみに、中心極限定理を前提とする「標本のn数が大きければ大きいほど標本平均は母平均に近づく」というのは厳密には「大数の法則」と呼ばれるものです。

そしてこの標準誤差(SE)を使って、95%信頼区間などを算出したり、t検定でのp値を算出したりするのでした。

信頼区間との関係

信頼区間について復習すると、サンプルデータの標準誤差を「SE」、母集団の平均値を「μ(ミュー)」とおくと、95%信頼区間は下記の式で示されます。

Xに上線を引いたもの(エックスバー)は、サンプルの平均値を表しています。

この式をμについて変形して導くと、母集団の平均値(μ)の95%信頼区間が得られるのでした。

どんな分布でも大丈夫!?

しかし、ここでひとつ疑問がうかぶかもしれません。

「え、ちょっと待てよ。でもこの信頼区間が得られるのって、正規分布と仮定したときじゃなかったっけ⁈」

このように疑問に思うかもしれません。たしかに、世の中には正規分布以外にも色々な分布があります。

たとえば、サイコロを1回投げた時の目の分布は、⑴から⑹まで一様に等しいです(一様分布という)。

こんな分布の時には使えないのでは?と思うかもしれません。

しかし、今回の中心極限定理の話、実はもう1つ重要な性質を示しています。

それは

「どのような分布のものでも、母集団から抽出した各サンプルの【平均値】はバラついていて、そのバラつきの分布が正規分布にしたがう」

という性質です。

つまり、元の分布が例えば一様分布であろうと、ポアソン分布であろうと、サンプルの平均値自体のバラつき具合に関しての分布は正規分布に近づいていくというわけです。

この性質、実は何気にシンプルで便利なスゴい定理です!この性質によりt検定などの正規分布を利用した検定をおこなうことができるわけです。

今回は「中心極限定理」についてそのイメージと本質の理解をお手伝いする内容でした。少しでもみなさんの理解の一助になれば幸いです。

【参考文献】 1) 涌井貞美: 意味がわかる統計解析, ベレ出版, 2013. 2) 三輪書店オンラインショップ / 真に役立つ研究のデザインと統計処理 -統計の論理的なストーリーを理解する. https://shop.miwapubl.com/products/detail/1164 (Accessed Mar. 15, 2021) 3) 涌井良幸, 涌井貞美: 統計学の図鑑, 技術評論社, 2015, pp 159.

主催者への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。 登録はこちら )