1から始める研究 〜期待値と分散、離散変数と連続変数〜

お気に入り数 0
小島 一範 岡山医療専門職大学 助教

臨床研究を行ううえで必要な統計学は、実は確率の概念と深いつながりがあります。前回は確率変数という言葉と、期待値の表し方について解説しました。今回は前回に引き続き、確率変数や期待値、そして統計でおなじみの「分散」についても説明し、さらに離散変数や連続変数というものについても触れていきます。

分散とは

改めて「分散」について考えてみます。

分散についてはすでに以前のコラム「1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜」にて説明しています。その際にイメージとして、なんとなくつかんでいただけたかもしれません。

説明としては、「分散」というものは全体の「ばらつき」を表す指標なんだよ、ということでした。そして計算の仕方としては、「それぞれの値の平均との差(偏差)を二乗したものを合計した値(偏差二乗和)を人数で割ったもの」という話でした。

実はこの「分散」という言葉は確率論の中でも登場します。この確率論での分散と統計学での分散とは、なにか別のものとして捉えられてしまいがちですが、本質は同じものなんです。ただそこが結びついていない人もいるかもしれません。

「分散」というものを確率の考え方の方向からみることによって理解を深めましょう。

サイコロの例における期待値と分散

前回の記事「1から始める研究 〜確率変数・期待値とは⁈ 統計との関係〜」にも示したサイコロの例をまた出してみます。

サイコロを1回振ったときの期待値は

このように表されます。この「期待値」というのは「平均値」と同等と考えることができるのでしたね。そして、今回は分散を計算する式を示します。サイコロを1回振った時の分散は、次のように表されます。

この式を見ると、「それぞれの確率変数(1〜6まで)と期待値(3.5)との差の二乗にサイコロの確率(1/6)を掛けたものを全て足し算したもの」と言うことができます。ちなみにこの計算を行うと、サイコロを1回振った時の分散は「35/12」(約2.9)となります。

そして、一般的にあるn個の確率変数x1、x2、・・・xn (サイコロの目でいう1、2、・・・6)のそれぞれの確率p1、p2、・・・pn (サイコロの確率でいうと1/6、1/6、・・・1/6)を使って、

と表すことができます。つまり、これをΣの記号を使ってまとめると、

となります。「μ」は統計で言うところの「平均値」であり、確率で言うところの「期待値E(X)」を表します。

この式を日本語に翻訳すると、次のようなものです。

「期待値との差をそれぞれとって二乗したものに確率を掛けて出たそれぞれの値を合計したもの」

これを噛み砕いていくと、期待値との差、つまり平均からどれぐらい離れているか、という値が確率的にどれだけ起こりやすいか、そしてそれを合計することで全体のバラつきが見えてきそうですよね⁈

結局のところ、統計学での分散と同じ意味になりますし、計算結果も同じになります。

…だんだんややこしくなってきたので、じっくり自分の中で噛み砕いてくださいね。

離散変数と連続変数

さて、これまで示してきたサイコロの例などは、X=1に対していくら、X=2に対していくら、というように、確率変数Xの値が例えば「X=0.3」のように少数の値をとらなかったりします。このように飛び飛びの値を示していくことを「離散変数」または「離散データ」、「離散型変数」と呼びます。

それに対して、例えば体重などを考えていくと、「55.0kg」という値もとるし、「58.6935…」と、小数点以下いくらでも細かく見ていくことができます。このようなデータを、値が連続してつながっているという意味で「連続変数」または「連続データ」「連続型変数」と呼びます。

連続変数における期待値、分散

それでは期待値・分散の話に戻りましょう。

これまではサイコロのような離散型の変数で計算をしてきましたが、確率変数Xが1から2、3、…と1つずつをそれぞれ計算して足し算していくというやり方でした。じゃあ確率変数が連続型の変数のときは期待値や分散などどうやって計算したらよいのか…と思うかもしれません。

結論から言うと、連続型の変数の場合の期待値や分散の算出方法は「積分」という方法を用います。

積分!出てきました。

特に「∫」の解釈については以前の記事「1から始める研究 〜積分記号「∫」について〜」で詳しく説明しています。

要するに関数における面積を算出しているのが積分というものです。

考えてみると、サイコロのような離散型のデータにおいても、ヒストグラムの幅が変数1つ分、そして長さが「確率」を表すので、期待値の計算式の(変数)×(確率)はそのヒストグラム1個1個の長方形の面積であり、それを合計することで、全体の面積を表していることに他なりません。

というわけで、連続しているため1個1個の長方形が出せない連続型では、その関数f(x)における範囲内の面積を積分で算出することで、期待値E(X)を求めることができます。

式にすると次のようになります。

この場合のxの範囲は「全ての範囲」という意味で「-∞」から「+∞」までという記載になります。そして、分散についても考え方は同様であり、離散型では上記の通り、

このようになるところを連続型では、

となるわけです。

いかがだったでしょうか?

前回、今回と少し理論的で難しい話だったかもしれませんが、一つ一つ理解していくと、これまで別のように思われてきた確率と統計が1つにつながることに気づくはずです。ぜひみなさんの理解の助けになれば幸いです。

主催者への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。 登録はこちら )