決定係数(寄与率)とは
決定係数(寄与率)とはなにか?
よく「R^2、Rの2乗」で表されるもので、学術発表や論文でも見かけたことがあるかと思います。
まず一言で言ってしまうと、決定係数とは「回帰直線の当てはまりの良さ」を表したものです。
それでは、前回までに例で示した数学と理科のテストの点数で考えてみましょう。
まずおさらいですが、数学と理科の点数の分布を示した図(散布図)において、「回帰直線」というのは、「数学」の点数を「x」として横軸に、「理科」の点数を「y」として縦軸にしたときのグラフを直線として表したものです。
散布図のそれぞれの点と点を結んだところで直線にはならないので、この分布に最も近い直線を当てはめていくという話でした。
そしてこの直線の当てはめ方は、「最小二乗法」というものを用いるんだということを前回の記事で説明しました。
さて、こうして当てはめていった回帰直線ですが、はたしてこの直線がどれだけの意味を持つのでしょうか?⁇
この直線は本当に信用していいのでしょうか?⁇
練習問題
おさらいできたところで、以下にAとBの2つのグラフを示します。
Aのグラフは、ある試験での「数学」の点数と「理科」の点数を分布で表した散布図です。
そしてBのグラフは、「社会」の点数と「理科」の点数を分布で表した散布図です。
この2つのグラフには前回説明した方法と計算によってそれぞれ回帰直線が引かれています。
この2つのグラフを見比べて分かることどうでしょう⁈
Aのグラフに比べてBのグラフではばらつきが少し大きいことがわかります。
回帰直線を引くと2つのグラフは同じような直線が引けたものの、その当てはまり方に差が出ていることがうかがえます。
そしてそれぞれの決定係数(R^2、Rの2乗)を計算すると、Aのグラフでは「0.61」、Bのグラフでは「0.11」となりました。
この結果からも、Aのグラフの方がBのグラフと比べて当てはまりが良いことが数値としてわかるということになります。
つまり、回帰分析において、決定係数の高いAのグラフからは、「数学」という要因が「理科」の点数に影響を与えている、つまり決定している割合が多いと考えられ、逆に決定係数の低いBのグラフからは、「社会」という要因が「理科」の点数に影響を与えている割合が少ないと考えられる、という意味になります。
このことから、決定係数(寄与率)とは、「ある要因がある結果に影響を決定づけている割合」もしくは「ある要因が結果にどれだけ寄与しているかの割合」とも解釈することができるというわけです。名前と意味がつながったでしょうか。
決定係数の導き方
ここからは決定係数をどのようにして導くかを解説します。
先ほどの数学と理科のグラフを使ってみましょう。
といっても、この決定係数の導き方はとても単純なもので、その途中に出てくる計算式は実はこれまでに記事の中で出てきたものの組み合わせだということに気付きます。
数式は最小限にします。なのでどうか怖れずに(笑)ついていってください。
導き方は次の3段階に分けられます。
①残差(ざんさ)平方和(Qe)を求める。
②偏差(へんさ)平方和(Q)を求める。
③決定係数を出す。
順番に説明します。
①残差平方和(Qe)を求める。
これは実は前回の記事で説明したものです。
前回、数学と理科の散布図から回帰直線を当てはめていこうとしたときに、「それぞれの点と直線との距離(赤の矢印)がなるべく小さくなるように当てはめる」ということを思い出してください。
そしてその「距離」の足し方はただ単に差をとったものを足していくのではなく、差の2乗をとってそれを全部足し合わせます。
実はこの足し合わせたものが残差平方和(Qe)なのです。
②偏差平方和(Q)を求める。
次に「偏差平方和」についてですが、この聞き慣れない言葉についても実はもう既にこれまでの記事に登場しています。
「1から始める研究 〜これで分かる!平均値・中央値・分散・標準偏差について〜」
それは「分散」や「標準偏差」のところです。
この分散を導くときに、それぞれの点数と平均点との差を2乗して足し合わせたのを覚えていますでしょうか。
まさにこれが「偏差平方和(Q)」のことです。
記事では「偏差2乗和」と書いていますが、同じものです。
グラフで示すと、真ん中の青い点線が平均線であり、この平均線との差が緑の矢印で表されており、この矢印の値の2乗を全て足し合わせたものが偏差平方和です。
③決定係数を出す。
最後は決定係数を出すわけですが、これは先ほどの①の残差平方和(Qe)と②の偏差平方和(Q)を使って次のとても簡単な式で導かれます。
この式を解釈すると、まずQに比べてQeが極端に小さい、つまり赤の矢印の長さの2乗の合計Qeのほうが緑の矢印の長さの2乗の合計Qよりも極端に短ければ、「Qe / Q」は0に近づき決定係数は1に近くなる、というイメージです。
逆にQeとQがほとんど同じ、つまり矢印の長さの合計がほぼ同じなら、「Qe / Q」は1に近づき決定係数は0に近くなる、というイメージです。
相関係数との関係
ここまで説明してきた「決定係数」ですが、実は「相関係数(r)」とも深いつながりがあります。
結論から言うと、「相関係数(r)」の2乗(r^2)が決定係数の2乗(R^2)と同じ値になります。
すなわち、「R = r」なんです!
私も最初にこれを知ったときはびっくりしました。
相関係数については以前にも導き方も説明しましたが(https://xpert.link/column/299/)、今回の決定係数とは違う導き方で出された解が全く同じになるということです。
ただ、これも導くまでの途中の式を見比べていくと、結局は決定係数も相関係数も同じものを導き出していることに過ぎないことがわかります。
ここまでくると、決定係数のイメージもつかみやすいのではないでしょうか。
気になる人は、他の書籍などに式変形が記載していますので、確認してみてもいいと思います。
今回は以上です。
ここまでは単回帰分析を取り上げましたが、次回からはいよいよ重回帰分析について触れていきたいと思います。