t検定とは
まずは、t検定とはそもそも何なのか?というところから始めたいと思います。
t検定について日本産業規格(JIS)の定義を挙げると、「t検定とは、検定統計量が、帰無仮説の下でt分布に従うことを仮定して行う統計的検定」となっています1)。
と、これだけでは正直言って専門用語が多くて、すぐには理解し難いかもしれません。ただ、要するに「t分布というものを使っておこなう検定」なんだな、というイメージをつかんでおきましょう。
以前の記事で「統計的検定」や「帰無仮説」については解説していますし、「t分布」も正規分布のようになんらかの分布のことを言ってるんだな、と思えばこの定義も少しはイメージできるのではないかと思います。
「帰無仮説」や「統計的検定」についての記事はこちら 『1から始める研究 〜帰無仮説って?検定のしくみ〜』
このt分布についての詳しい説明は別のところで書きたいと思います。
参考までに、z検定とt検定の違いについての以前の記事はこちら 『1から始める研究 〜z検定とt検定の違い、不偏分散とは?〜』
t検定の種類
さて、普段何気なく聞いたことのあるかもしれないt検定ですが、この広い意味での「t検定」と呼ばれるものにはいくつか種類があることを知っていますか⁈
結論からいうと、見たいデータの種類によって次の4種類に分類されます。
・1群でのt検定 ・対応のあるt検定 ・Student のt検定 ・Welchのt検定
では、この4種類、どう使い分けたらよいのでしょうか?それぞれ解説していきます。
・1群でのt検定 まず「1群でのt検定」についてです。これは、「ある特定の値が母集団の平均に等しいのかどうか」という検定です。
例えば、あるクラスA組の生徒30人を母集団としてテスト結果のクラス平均が60点だと予想したいときに、そのA組の中のA〜Eさんの5人をサンプルとして抽出して、その5人の結果から60点が妥当かどうかを判定する検定方法です。(実際問題サンプルサイズが5人で有益な結果が得られるかどうかは別とします。)
このように、ある1種類の母集団に対してその標本を用いて検定するのが「1群でのt検定」です。
残りの3種類のt検定については、いずれも「2群」での比較の際に用いる検定方法であり、2つの母集団の間の平均値の差があるかどうか調べたいときに使います。
ここで、差の検定における検定方法の選び方についての以前の記事『1から始める研究 〜検定方法の選び方(その2:差の検定)〜』にも載せた図を見てみましょう。濃く色付けされたところが今回のt検定に関する部分です。
これを見ると、2群の比較の場合、「対応あり」と「対応なし」の場合に分かれています。そしていずれにしても「パラメトリック」なデータの場合に主に適応されることがわかります。
・対応のある2群の比較(対応のあるt検定) 2群の比較におけるt検定の中でまず「対応のあるt検定」について説明します。文字通り「2つの群の間に対応がある場合に使用する検定方法」です。
「対応がある」「対応がない」の違いは、以前の差の検定の記事にも書いていますが、例えば「対応あり」というのは、治療前と治療後との比較など同じ人(モノ)で前後を比較したり、ペアになっているもの(夫婦、左右の足など)で比較したりするものを言います。
A〜Eさんの5人がいるA組の中間テストの点数結果と期末テストの結果を比較したり、ある患者さんが投薬治療を受ける前の血圧と治療を受けた後の血圧とを比較したりする方法です。ちなみにこの場合は当然ながら比較する2群のサイズ(人数、n数とも言う)は同じになります。
・対応のない2群の比較(Student のt検定、Welchのt検定) さて、上記の4種類の中で残された2種類のt検定(Student のt検定、Welchのt検定)は2群の間の比較の中でも「対応のない」つまり独立した2群の比較の場合に用います。
例えば、先ほどの図のようにA〜Eさんの5人がいるA組とF〜Jさんの5人がいるF組とでテストの点数を比較し、A組とF組の平均点が等しいかどうかを判定する検定方法です。この独立した2群の比較の場合、それぞれの群のサイズ(人数、n数)は必ずしも同じである必要はありません。2群間でサンプルサイズが異なっても検定が可能です。
ところで、この独立した2群の比較に用いる2種類のt検定(Student のt検定、Welchのt検定)は上の差の検定におけるフローチャートの図でも同じ場所に書いてありますが、この2つの検定はまったく同じ手法として使ってもよいのでしょうか⁈
実は違います。この2つの検定を使い分ける鍵は「等分散」かどうかということになります。「等分散」というのは、2つの群の分散(正確には母分散)が等しい、という意味です。もし等分散であれば、「Student のt検定」が使えるということになりますし、等分散でなければ「Welchのt検定」を使うことになります2)。3)
ここで等分散について説明しておきます。
例えば、先ほどのA〜Eさんの5人がいるA組とF〜Jさんの5人がいるF組とでテストの点数を比較したときに、A組の母分散とF組の母分散が等しければ「等分散」とみなされます。分散というのはいわゆるバラつきのことでしたね。等分散かどうかを確認するためには「F検定」などの別の検定を行うことになります。
ちなみに「Student のt検定」に関して、一般的に単に狭義で「t検定」と呼ぶ場合もこのStudent のt検定を指すことがありますので覚えておきましょう。ちなみに「Welch」は人の名前ですが、「Student」というのは人の本名ではありません。この辺の話は有名なので、興味がある人はググってもらえるとよいでしょう。
おわりに
今回は、t検定について、その種類や使い分けについて解説しました。
実は今回書いた使い分けの方法などは一般的な話ではあるものの、その一方で「多重性」の問題も含むため、最近は使い分けに疑問が持たれており、等分散の検定をせずに「Welchのt検定」を使ったほうがよい、という風潮にもなってきているようです4, 5)「多重性」についてはまたどこかで解説する予定ですが、このように統計学の世界も現在進行形で発展してきているので、その時代によって見解が少し変わってきたりしています。しかしこれも真実を正確に見るべく科学が発展するためのものなので、我々は常にアンテナを張っておく必要があるのかもしれません。
【参考文献】 1)JIS Z 8101-1:1999 統計−用語と記号−第1部:確率及び一般統計用語. http://kikakurui.com/z8/Z8101-1-1999-01.html (Accessed Mar. 15, 2021) 2)Welch BL: THE SIGNIFICANCE OF THE DIFFERENCE BETWEEN TWO MEANS WHEN THE POPULATION VARIANCES ARE UNEQUAL. Biometrika, 1938, 29: 350–362. 3)関屋曻. 真に役立つ研究のデザインと統計処理 -統計の論理的なストーリーを理解する. 三輪書店,2010. 4)28-4. Welchのt検定 | 統計学の時間 | 統計WEB. https://bellcurve.jp/statistics/course/9936.html (Accessed Mar. 15, 2021) 5)検定の多重性を分かりやすく解説します【F検定⇒t検定はダメ?】 | シグマアイ-仕事で使える統計を-. https://sigma-eye.com/2019/03/29/tajuusei/ (Accessed Mar. 15, 2021)