研究における統計解析について、シリーズでお伝えしています。前回はt検定に代表されるような差の検定に関して、それぞれの条件に応じた細かい検定方法の決定方法などについて解説しました。
今回は「相関」について解説します。
相関については学習指導要領の変遷により、高校数学で習ったことがある人もない人もいるかと思います。習ったことがない人でも理解できるよう、1からの説明をしていきますね。

相関とは

まずは「相関とは何か」です。

最初に図をご覧ください。

例として、あるクラスの生徒7人の数学と理科のテスト点数結果を表と図に挙げています。これだけを見ても、何となく数学の点数が高い人は理科の点数も高いことがうかがえます。「何か関係性がありそうだ」となりますよね。

このように、ある事柄Aの数字が大きい人は、もう一つの事柄Bの数字も大きくなりがちな関係性のことを「相関関係」と呼びます。

そしてこの相関関係には、「強さ」というものが存在します。どの程度相関があるのか、といった関係性の度合いのようなものです。

世の中には、「Aが大きければ必ずBも大きい」といった相関関係の濃いレベルのものもあれば、「Aが大きければBも大きいというわけでは必ずしもないが全体的に傾向を見るとそういう関係性がなんとなくありそうだ」というような相関関係の薄いレベルのものもあります。

このような関係性の濃さ…すなわち「相関の強さ」について、統計学的には数値で表すことができます。

この数値のことを「相関係数」と呼び、一般的に「r」という記号が使われます。

では、その相関係数 r はどのようにして導くことができるのでしょうか。

このことについては、まず比べたい2つのデータがどのような尺度のデータなのかを考える必要があります。

データによって手法を使い分ける

相関を調べたいときの2つのデータがそれぞれどのような尺度の場合にどのような相関係数を求めればよいかを表で示します。

表の見かたとしては、2つのデータのうち、一方を縦の列、もう一方を横の行としてそれぞれのデータの「尺度」もしくは「パラメトリック」かどうかについてあてはめます。

尺度についてはこちらを、 『1から始める研究〜データの種類、尺度について〜』 パラメトリックの説明はこちらを参照してください。 『1から始める研究 〜「パラメトリック」と「ノンパラメトリック」について〜』

例えば、「身長(cm)」と「体重(kg)」との相関をみたい場合、身長と体重どちらも比例尺度であり、どちらもパラメトリックと考えられるので、Peason(ピアソン)の積率相関係数を使用します。

一般的に「相関係数」といえば、このピアソンの積率相関係数のことを指します。高校数学で学習する際の相関係数も、このピアソンの積率相関係数として算出しています。

その他の相関係数を見てみると、例えばノンパラメトリックなデータにおける相関係数として「Spearman(スピアマン)の順位相関係数」が有名であり、基本的なアンケート結果や各分野で使われている評価尺度間の相関を調べるような研究においてよく使用されています。

また、2つのデータがどちらも名義尺度であるような場合などには、「Cramér(クラメール)の連関係数(V)」により相関の強さを算出することができます。ちなみにこのクラメールの連関係数については、χ(カイ)二乗検定などの比率・割合の検定を行う際に使用することもあります。

このように、データの種類によって最適な相関係数の算出方法が異なるので注意が必要です。

相関係数の値と相関の強さ

それでは相関係数(r)の値の意味について考えていきましょう。

上記にデータの種類による相関係数の算出方法が異なることを書いていますが、基本的にはどの算出方法においても、相関係数(r)は「正か負の0から1までの値」の範囲となっています。

つまり、「-1から1までの間」です。 *クラメールの連関係数については「0から1までの間」

相関係数(r)の様子を下図に示しますが、「0」であれば全く相関なし、「1」に近ければ「正の相関あり」、「-1」に近ければ「負の相関あり」、となります。

「正の相関」というのはAが大きいときにBも大きいといった相関関係であり、「負の相関」はAが大きいときにBは小さいといった相関関係をいいます。

そして、相関の強さについてですが、相関係数(r)には一般的に次のような目安があります。

0.7~1.0➡強い正の相関がある 0.4~0.7➡中等度の正の相関がある 0.2~0.4➡弱い正の相関がある -0.2~0~0.2➡ほとんど相関がない -0.4~-0.2➡弱い負の相関がある -0.7~-0.4➡中等度の負の相関がある -1.0~-0.7➡強い負の相関がある

このような指標によって相関関係を調べていきます。

ちなみに、冒頭に挙げた7人の生徒のテスト結果において、数学と理科の間におけるピアソンの積率相関係数は「r=0.78」となっており、正の強い相関があることがわかります。

「相関関係にあること」イコール「因果関係にあること」ではない

ここまで、相関について考えてきましたが、ここでよく陥りがちな誤解について述べておきます。

それは「相関関係にあるからといってすぐに因果関係に結び付けない」ということです。

例えば、一般的な成人には「身長」と「体重」との間に相関関係があります。

もちろん、身長が高くても痩せていて体重が少ない人や、身長が低くても体重が多い人もいます。しかし総じて考えてみると、相関があることは何となくイメージできるのではないかと思います。では、そのように身長と体重に相関があるからといって、頑張って体重を増やしたら身長は伸びるのでしょうか?

また、他の例を挙げてみると、火をつけるライターを所持していることと、肺がんの罹患に相関関係があるとします。しかし、これはタバコを吸う人がライターを所持しているために起きた結果といえます。タバコを吸うと肺がんになりやすいことはよく知られています。なのに、このライターの所持と肺がんの罹患とに相関関係があるという結果から、タバコも吸わない人がライターをいつも所持したからといって、肺がんに罹患しやすくなるでしょうか?

このように、単に何か別の要因のために結果的に2つの間に相関がみられただけであって、2つの間には何の因果関係もない、ということも少なくありません。もちろん、2つの間に因果関係があるために相関がみられることも多々あります。だからといって、「相関がみられるから因果関係がある」とはいえないということです。

この因果関係について論じるためには、ある時点に同時期的(横断的)に調べる方法として相関をみただけではいえないので、別の原因と結果が時系列的(縦断的)に調べられる方法をとる必要があるわけです。

この縦断的に行う研究方法については別のところで書いていきたいと思います。

今回は「相関」についてその意味と相関係数についての大まかなイメージについて解説しました。次回は実際の相関係数の導き方、計算方法について書いていきたいと思います。

主催者への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

    コラムで人気のタグ

    タグをフォローしておくことで、自身のフィードに興味のあるセミナーやコラムを優先的に表示させることができます。(無料会員機能。 登録はこちら )