1から始める研究〜相関係数の導き方とその意味(①ピアソンの積率相関係数)~

お気に入り数 0
小島 一範 岡山医療専門職大学 助教

前回は、相関についてその定義と相関係数の概要をお伝えしました。
今回は、相関係数のなかでも、とくに「ピアソンの積率相関係数」の導き方についてお話して、相関係数の値が何を意味するのかを理解してもらいたいと思います。
式の導出が理解できると、そこで導き出された値についてもイメージできるようになり、研究でより深く考察することが可能になってきます。
それでは始めましょう!

【参考記事】 1から始める研究〜相関とは(相関係数の出し方)~

相関係数の式

まず、相関係数について。ここでの相関係数は「ピアソンの積率相関係数」の話です。高校数学で学習する「相関係数」もこのピアソンの積率相関係数を用いています。では、この相関係数を前回例示したある7人の数学と理科の点数を使って考えていきましょう。

結論からいうと、この7人の数学と理科との間にある相関係数は、以下の式によって導き出されます。

一般的には、XとYを使って次のように表されます。

では、この意味について考えてみましょう。

まず、分母にあるのは数学の標準偏差と理科の標準偏差を掛け算したものです。「標準偏差」については、「バラつきを表す指標」でしたね。以前の記事(1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜)を参照いただければ計算して導くこともできるかと思います。

そして、分子にあるのが、「共分散」です。この「共分散」が相関係数に大きく関わってくるものです。この共分散について詳しく説明していきます。

共分散とは

「共分散」を一言イメージでいうなら、「数学の点数と理科の点数との相性の大きさ」です。

これがプラスに大きければ大きいほど「相性バッチリ」、マイナスに大きければ大きいほど「相性(関係)は真逆」、0に近ければ「特に関心(関係)なし」といったところです。まだこう言われても「ふーん…」としか思わないと思いますので、実際に計算して納得してもらいましょう。

まず、共分散を計算するときに必要なのは、それぞれの「偏差」を出すことです。「偏差」とは、「Aさんは平均値からどれだけ離れているのか」という平均値との差を示す値のことでしたね。

「偏差」については、以前の記事(1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜)に詳しく書いています。上の図はA~Gさんの数学の点数における偏差を算出しています。

同様に、理科の点数における偏差も算出していきます。偏差を出す前にまず理科の「平均点」を計算をすると55点となりました。

そして、理科の「偏差」は次の図のようになります。

次に、1人ひとりの数学の偏差と理科の偏差を掛け算して、それを合計して人数で割ると共分散のできあがりです。

実際に計算してみるとわかるのですが、偏差が大きいもの同士の掛け算(上の例ではCさんの31×37)の結果にかなり左右されやすいことも特徴として感じられると思います。こういった感覚をもつことは実際の研究データを扱うときにも大事であると考えています。

さて、このようにして導出する「共分散」ですが、これらの計算を一般的にしてひとつにまとめた式を書くと次のようになります。

この数式を一目見ると、やる気をなくしてしまう人もいると思いますが、実は式の一つひとつの意味を知って見ていくと理解できるようになります。

XやYの上に「バー」とよばれる横線がついているものは「平均」を表します。ギリシャ文字の「Σ(シグマ)」は、「全部足し合わせる」という意味の記号です。そして、Xiなどの「i」には、「1、2、3、…」という連続した整数が当てはまります。よって「i = 1」のときのXiは「X1(今回はAさんの点数)」、「i = 2」のときのXiは「X2(Bさんの点数)」、「i = 7」のときのXiは「X7(Gさんの点数)」、となります。Yも同様です。元の式に戻ると、図の点線で囲った部分の意味は、「(Xの偏差)×(Yの偏差)のiを1からnまで順番に足し合わせた合計」という意味になります。これを人数である「n」で割るわけです。

このようにして「共分散」が導かれますが、ちなみに以前標準偏差のところで説明した「分散」と非常に式の構造が似ています。ここで一歩踏み込んで、「共分散」と「分散」の類似点と式から読み解くイメージの違いをおさえておきましょう。

あらためて「分散」の式をおさらいします。

上の「共分散」の式と見比べてもらえるとわかりますが、とてもよく似ています。「分散」のときは、(Xの偏差)を2乗したもの、つまり(Xの偏差)×(Xの偏差)、これを足し合わせて「n」で割る、というものでした。「共分散」のときは(Xの偏差)×(Yの偏差)。

つまり、(Yの偏差)の値が(Xの偏差)の値に似てれば似てるほど、「共分散」と「分散」が同じ値に近づく、という性質です。この性質をふまえて、最後に相関係数の話に戻りましょう。

相関係数の意味

冒頭でも示しましたが、相関係数(r)は次のように表されます。

下段の分母は(Xの標準偏差)と(Yの標準偏差)を掛け算したものでしたね。この分母がなにを表すのかというと、XやYのバラつきの度合いです。つまり「分散」のようなものです。上段の分子が、先ほどまで説明した「共分散」ですが、この分子の値は正負どちらにしても分母の値を超えることができず、最大でも分母の値となるのでその際の相関係数は「1」もしくは「-1」となります。逆に共分散としての関係性が薄く分子が0に近ければ、相関係数も0に近くなります。言い換えると、「共分散」が「分散」の値に似てれば似てるほど分母と分子の値は近くなる、すなわち相関係数が1に近づくわけです。

実際のところ、分子の共分散だけでも相関の強さを知ることができるのですが、その値の定義が状況によってまちまちなので、分母で割ることで標準化しましょう、という意味だと思ってもらえたらと思います。結果的に得られる相関係数は0から1、もしくは-1から0の範囲におさまって相関の強さが分かりやすい、というわけです。

このように相関係数について、式の導出や意味を理解することでより深い考察も可能になってきます。ぜひともおさえてもらえれば幸いです。

次回は相関係数の中でもノンパラメトリックなものに用いる「スピアマンの順位相関係数」等他の相関係数について書いていきます。

主催者への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。 登録はこちら )