1から始める研究 〜ロジスティック回帰分析について~

お気に入り数 1
小島 一範 岡山医療専門職大学 助教

これまでの記事では、単回帰分析や重回帰分析について解説してきました。今回はロジスティック回帰分析について紹介していきます。
ロジスティック回帰分析は研究でよく用いられる解析手法の1つです。このロジスティック回帰分析の使いどころや意味、解釈の仕方などあまり十分に理解しておらず、とりあえず使っていることもあるかもしれません。
しかし、この意味や解釈の仕方がわかれば結果に対する考察も深まることだと思います。そこで今回は、どのようなときに用いて、結果の解釈をどのようにするかについて解説していきます。

どのようなときに使うか

どのようなときに使うか

まず、ロジスティック回帰分析をどのような場面で使うかについてです。

これは以前の記事「1から始める研究 〜検定方法の選び方(その1:大まかに分類して検定方法を絞る)〜」で検定の使い分けについてのフローチャートで示しています。

 

このフローチャートでは以下3つを当てはめていきます。

①どんな分類によって(要因)

②何のデータを結果として(アウトカム)

③どんな関係をみたいか

 

今回は基本的に以下3つを調べたいときに、この「ロジスティック回帰分析」を行うことになります。

 

①量的変数によって

②質的変数の結果が

③どのくらいの比率で影響を及ぼしているのか

   

ロジスティック回帰分析

 

以前執筆した「1から始める研究〜回帰分析について〜」では、結果(アウトカム)が「量的変数」であったものが、ロジスティック回帰分析では「質的変数」となっていること以外は同じであり、こちらもある要因がアウトカムにどれだけ影響及ぼしているかということを分析する手法と解説しました。

 

この「量的変数」と「質的変数」の意味や違いについては、別の記事「1から始める研究 〜検定方法の選び方(その1:大まかに分類して検定方法を絞る)〜」をご参照ください。

 

さて、このロジスティック回帰分析ですが、臨床での使う場面は以下のような例があります。

 

・下肢筋力の強度による転倒の有無について調べる

・体脂肪率による糖尿病発生の有無について調べる

 

ちなみにアウトカムについては、今回は「有り」「無し」といった2値のカテゴリカルデータで行う「二項ロジスティック回帰分析」で説明します。

 

もちろん質的変数なので、3つ以上のカテゴリカルデータ(「赤」「白」「黄色」など)や順序尺度がアウトカムでも同様の要領で可能です。

この場合は「多項ロジスティック回帰分析」や「順序ロジスティック回帰分析」となりますが、根本的なロジスティック回帰分析としての意味は同じです。

 

 

データの解析方法について

データの解析方法について

では、これから、具体的にこれまでの記事でも例に挙げているクラスの生徒7人のテスト結果や勉強時間のデータでの解析方法を考えていきましょう。

 

まずここに、ある期間での勉強時間と、その後の試験の合否について示します。

ある期間での勉強時間と、その後の試験の合否

そしてこの結果を散布図として、横軸に勉強時間をとり、縦軸を合否についてとると、次のようになります。

散布図

単回帰分析や重回帰分析では、ここで得られた散布図に最も当てはまる直線を引いて回帰直線を出しました。

しかしながら今回は、縦軸が「合格」か「不合格」の2択なので、直線を引こうにも当てはまりが悪くなります。

 

そこで、ロジスティック回帰分析ではデータにひと工夫も、ふた工夫も加えていきます。

 

まず、アウトカムについて、上記サンプルでの結果の縦軸は「合格(1とする)」か「不合格(2とする)」の2択となっています。

ここでその背景にある大人数の母集団を考えてみると、勉強時間に対する「合格率」、つまり「何人中何人が合格したかの割合」となります。

 

この「合格率」として縦軸にしたものを示すグラフは次のようなヒストグラムになることが想像できます。

ヒストグラム

そしてこのヒストグラムのような形になることは自然界によく起こりうるということで、次のような「シグモイド関数(ロジスティック関数)」と呼ばれる曲線のグラフに当てはめられます。

シグモイド関数(ロジスティック関数)

数式にすると次のようになります。

(x:勉強時間、y:合格率、a:定数)

シグモイド関数(ロジスティック関数)

つまり、この曲線が最も当てはまるように定数aを決めていくのがロジスティック回帰分析ということです。

 

あとは重回帰分析のようにどの要因(説明変数)がアウトカム(目的変数)にどのくらい影響を与えているかを分析します。

 

 

数式の意味、ロジット変換、オッズについて

数式の意味、ロジット変換、オッズについて

先述した曲線のままでは結果の解釈が行いにくいので、yを確率pとして次のような式の変形(対数変換、ロジット変換)を行うことで右辺をxの1次式、つまり直線のグラフになる式に変換します。

対数変換、ロジット変換

「対数変換」については、高校数学で習う「指数・対数」のところで出てきます。

「指数」は「対数」に変換できる方法です。この左辺の対数の部分を「ロジット関数」といいます。

 

そしてこのロジット関数の対数の中にある(p / 1 - p)は「オッズ」と呼ばれます。「p」を(起こる確率)とすると、「1-p」は(起こらない確率)となるので、「オッズ」とは、ある確率pを用いて…

 

(起こる確率)÷(起こらない確率)

という比を表しており、例えばp=0.5のときはオッズ1倍、p=0.8のときはオッズ4倍と言ったりします。

この「オッズ」については、結果の解釈の際にも出てきます。

 

 

おわりに

おわりに

今回はロジスティック回帰分析について、その概要を説明しました。

次回は実際の統計解析結果の解釈や、ロジスティック回帰分析を含む「一般化線形モデル」の話題などについても触れていきたいと思います。

企業への質問

この機能を利用するには、ログインが必要です。未登録の方は会員登録の上、ログインしてご利用ください。

この記事に関連するタグ

興味のあるタグをフォローしておくことで、自身のフィードに関連するセミナーやコラムを優先的に表示させることができます。 (無料会員機能。 登録はこちら )

執筆者の他のコラム