1. ホーム
  2. コラム
  3. 1から始める研究〜正規分布とは?!有意水準5%との関係は?〜

1から始める研究〜正規分布とは?!有意水準5%との関係は?〜

お気に入り数2
小島 一範 岡山医療専門職大学 助教

一定数のデータを集めて行うような量的研究でよく耳にするのが、「有意水準」という言葉です。論文を読んでいると、「有意水準5%」というものが統計処理の基準としてよく使われていることに気付くと思います。そして、有意水準5%を下回った場合に得られた結果を「有意な差がある」と判断したりしますよね。
この「5%」…なんとなくのイメージや直感で理解している方も多いのではないでしょうか? しかし、なんとなくではなく、統計学的にきちんと理解することが出来れば、研究結果に対する解釈をより深めることが出来ます。
「有意水準5%」を理解するキーワードは「正規分布」です。
今回は、分かっているようで分かっていない「有意水準5%」「正規分布」を解説します。

目次

    分布とはどのようなものか

    まず「分布」という言葉の意味から考えていきましょう。
    「分布」とは「散らばりの様子」を表すものです。

    例えば、「全国の人口の分布」や「世界の野生動物の分布」というものがあります。散らばりの様子というと、図やグラフといった分布図で思い浮かべる人もいるかもしれません。「分布」には様々な意味がありますが、このコラムでは「この範囲内にどれくらいの人数がいるのか」といった数の分布を表すものとして考えます。

    では、前回の「平均・標準偏差」についての記事で挙げた、あるグループのテストの点数を例に考えていきましょう。

    ここにあるグラフは、AさんからGさんの7人のそれぞれのテスト結果を棒グラフに表したものです。このテスト結果を「点数の順番」にして、「何点から何点の間に何人いるのか」というグラフに置き換えてみましょう。

    「40点以上50点未満には3人」「50点以上60点未満には2人」と表現することが出来ました。このようなグラフに表したものを『度数分布図(ヒストグラム)』と呼び、分布を表したものとなります。

    そしてこの分布は…
    ・「40点以上50点未満には7人中3人」=「3/7 ≒ 0.43の割合がいる」
    ・「50点以上60点未満には7人中2人」=「2/7 ≒ 0.29の割合の人がいる」
    という確率を表しています。これより『確率分布』とも呼ばれています。

    もちろん、7人のテスト結果だけでは、A〜Gさん以外を含めた全体の分布を詳しく知ることは出来ません。より多くのテスト結果を加えることで、その確率を明らかにすることが出来ます。また、それによって、10点刻みから1点刻みで表現することも可能となり、より細かく確率分布をみれるようにもなります。

    ちなみに、「確率分布」の形は調べたいものによって様々な種類が存在します。
    代表的な種類としては「一様分布」「二項分布」「ポアソン分布」「指数分布」が存在します。ただ、一般的には、後述する「正規分布」となることが多いことが知られています。その理由には「中心極限定理」という定理によって説明されますが、それは次回以降に説明したいと思います。

    正規分布とはどのようなものか

    正規分布の度数分布図(ヒストグラム)を線で結んだようなグラフにします。下図の左右対称のベル状となり、なだらかな裾野が地平線に向かって広がっている形になります。この形はどこかで見たことがある人も多いのではないでしょうか?これが正規分布の形です。

    このベルの頂点に位置するのが、平均値となります。

    見たい区間(例えば、40点以上50点未満の区間)に何%が含まれているのかを知るときには、全体の面積のうちの区間の面積の割合を算出することで可能となります。これは数学的に積分を用いることで求めることができます。

    そして、正規分布である限り、どんなデータでも図の斜線で示された平均値から左右ともに標準偏差(σ)だけ離れた区間には(【平均値】±【標準偏差(σ)】の区間内の割合)、約68.3%のデータが入ることとなります。例えば、平均値が57点で標準偏差σが15.6の場合では、【平均値】± σ (57 ± 15.6)すなわち41.4〜72.6点の範囲に全体の約68.3%の人がいることになります。

    さらに、平均値から左右ともに標準偏差(σ)の2倍だけ離れた区間には(【平均値】±2σの区間内の割合)、約95.5%のデータが入ることとなります。先ほどの例では、【平均値】±2σ= 57 ± 15.6×2すなわち25.8〜88.2点の範囲に全体の約95.5%の人がいることになります。

    有意水準5%との関係

    このように、正規分布では標準偏差の値から全体に対する割合を算出することができます。
    では、全体の95.0%に相当する範囲も逆算してみましょう(計算式は省略します)。【平均値】±1.96σとなり、先ほどの【平均値】±2σにほぼ近い値になりますね。…そうです!この範囲内に有るか無いかを調べることが、最初に触れた「有意水準5%」に入っているかを決める計算に繋がります。

    ちなみに「有意水準5%」とともに論文や学会でよく聞く「有意水準1%」というのも、全体の99%に相当する範囲である「【平均値】±2.58σ」の範囲を基準にしています。

    では、「5%や1%という数字はどこからきているの?」と疑問に思うかもしれません。この数字は、どうやら昔からの慣習で「全体の5%ならレアといえるだろう。もっといえば1%なら激レアといえるだろう」と判断していた経緯があるようなのです。

    我々がなんとなく使っている「有意水準5%」というのは、実はこのような仕組みになっていたということが理解いただけたでしょうか?

    今後、論文を読む際や、研究において有意差を検定する際にこのような理論的知識があると、結果の解釈により深みがでるはずです。

    この記事に関連するタグ

    興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。(無料会員機能。登録はこちら)

    人気コラム

    もっと見る

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。登録はこちら)

    注目執筆者

    もっと見る

    コラムカテゴリ