平均(中央値)の差をみる検定
さて、ここでは「差の検定」、つまり平均値(中央値)に差があるかどうかをみたいときの細かい分類について解説します。
例えば、「男女の違いにより身長に差があるかどうかをみたい」といった場合です。
これは前回の分類でいうところの、「①名義尺度(2値もしくは3値以上)の分類によって」→「②間隔尺度や比例尺度(一部順序尺度)のデータを調べて」→「③平均(中央値)の差をみたい」という分類になります。下図のフローチャートの色がついているルートにあたります。
ここからさらに、データの種類に従って検定方法を決定していきます。
さっそく、差の検定におけるデータの種類の分け方のフローチャートを下図に示します。
この図を説明すると、次のような分け方によって分岐していきます。 ★2群の比較か、3群以上の比較か ★対応しているか対応していないか ★パラメトリックかノンパラメトリックか ★サンプルサイズ これらについて、それぞれ説明します。
2群の比較か、3群以上の比較か(2種類の差をみたいのか、3種類以上の差をみたいのか)
例えば、ある治療法Aを実施しているグループとその治療法Aを実施していないグループの2種類を比較するのは「2群比較」と呼び、さらに別の治療法Bも加えて3種類を比較するのは「3群比較」となります。
ある治療法を実施する前と実施した後で同一人物の変化を比較するようなものも「2群比較」となります。
対応しているか対応していないか
次にデータが「対応している」かどうかです。
この統計における「対応」という用語について、かみ砕いていうと、下図のように「同じ人(モノ)で前後を比べたりするのが「対応あり」であり、A組とF組という異なる人たちが集まった2グループを比べる、もしくは異なる人たちが集まった3グループ以上を比べるのが「対応なし」です。
ちなみに、この「対応あり」「対応なし」について英語では「paired」「unpaired(independent)」と記載されます。「ペアになっている」「ペアになっていない(独立した)」という意味ですが、こちらの方がスッと理解できるかもしれません。
この対応があるかないかによっても統計手法が変わります。
パラメトリックかノンパラメトリックか(もしくはどの尺度か)
尺度の違いで検定方法が異なるのはもちろんのこと、母集団がパラメトリックであるかどうかも関わります。
パラメトリックやノンパラメトリックについては、他の記事で詳しく説明していますが、この違いによっても検定方法が異なります。 【参考記事】 『1から始める研究 〜「パラメトリック」と「ノンパラメトリック」について〜』
間隔尺度や比例尺度においてこのパラメトリックかノンパラメトリックかの判断が難しい場面も一部ありますが、基本的には正規性の検定(シャピロ・ウィルク検定など)をすることで判断することができます。
※ただし、一般的に母集団が明らかに正規分布していると考えられているもの(身長など)については、少ないサンプルサイズでも正規性の検定をしなくともパラメトリックとして扱う場合もあります。話がややこしくなるかもしれませんが、ここでいう「正規分布」しているかどうかは、あくまで母集団であるので、サンプルサイズが少なくてもパラメトリックとして扱うこともあるようです。
サンプルサイズ
サンプルサイズが大きいか小さいか、によっても推奨される検定方法が違ってきます。それぞれの検定方法に対して「総数30以上」や「各群15以上」など基準が設けられていますので、基本的にはそれに従うとよいです。
以上のことを踏まえて、差をみる検定のフローチャートに従って検定方法を決定します。
例をあげて分類しよう
ここでは、例をあげて分類していきます。上記のフローチャートに従って検定方法を決定していきましょう。
=例1= 40人のクラスで、男女の違いにより身長に差があるかどうかをみたい。
この場合は、「男女(2群の比較)」で「対応なし」の「身長(パラメトリック)」のデータ「40人」となるため、フローチャートに従えば検定方法は、「Studentのt検定、Welchのt検定」となっています。
2つの手法がありますが、どちらでもよいのでしょうか?
実は、ここではさらにデータの種類によって分類されます。
男女という2群の分散が同じかどうか(等分散かどうか)をF検定などで判断します。同じ(等分散)であれば「Studentのt検定」を用い、同じでなければ「Welchのt検定」を用いる、ということになっています。F検定などについては、また別のところで解説します。
※実はこの「等分散かどうか」の判断を検定すること自体が「多重性」の問題を含んでいるので、分散は考慮せず全て「Welchのt検定」を行うべきという意見もあります。「多重性」についてもまた別のところで書きたいと思います。
=例2= 20人において運動前後で筋力(MMT)に違いがあるかどうかをみたい。
この場合は、「運動前後(2群の比較)」で「対応あり」の「MMT(順序尺度)」です。これはノンパラメトリックであるので、「Wilcoxonの符号順位検定」を行うことになります。
(例3)20人において運動前後で筋力(ハンドヘルドダイナモメーター)に違いがあるかどうかをみたい。
この場合は、「運動前後(2群の比較)」で「対応あり」の「ハンドヘルドダイナモメーター」です。ハンドヘルドダイナモメータは筋力が数字で出力されるので、比例尺度となります。
「パラメトリック」かどうかは正規性を確認する必要があります。20人であるので、パラメトリックと判断されたら「対応のあるt検定」、ノンパラメトリックと判断されたら「Wilcoxonの符号順位検定」を行うことになります。
以上、今回は「差の検定」に関して例をあげて解説してみました。統計における検定方法の選定の流れが少しでもつかめていただけたら幸いです。
【参考文献】 1)Blair, R. Clifford; Higgins, James J. (1980). "A Comparison of the Power of Wilcoxon's Rank-Sum Statistic to That of Student's t Statistic Under Various Nonnormal Distributions". Journal of Educational Statistics. 5 (4): 309–335. 2)Kruskal–Wallis H Test using SPSS Statistics, Laerd Statistics. (https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php) 3)Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (May 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. 4)Pearson, E. S. (1931). The Analysis of variance in case of non-normal variation, Biometrika, 23, 114-133. 5)Welch, B. L. (1938). The significance of the difference between two means when the population variances are unequal, Biometrika, 29, 350-362. 6)Weisstein, Eric. "Student's t-Distribution". mathworld.wolfram.com. (https://mathworld.wolfram.com/Studentst-Distribution.html) 7)今日から使える医療統計学講座. 医学界新聞.医学書院,2011 (https://www.igaku-shoin.co.jp/paper/archive/y2011/PA02927_03)