このシリーズでは、論文などで目にする医学研究データを正しく評価できるように、わかりやすく解説していきます。講師は、統計解析の専門家である菅 民郎氏(株式会社アイスタット 代表取締役会長 / ビジネス・ブレークスルー大学院大学 教授 / 理学博士)。
はじめに「p値」について簡単に復習してみましょう。詳しくは『わかる統計教室 第3回 セクション10 p値による仮説検定』をご参照ください。
■仮説検定とは
薬剤の効果を調べる場合、その薬を必要とするすべての人に薬剤を投与してみれば効果はわかりますが、それは不可能です。そのため臨床研究では、一部の人に薬を投与して、そこで得られたデータが、世の中の多くの人たちにも通じるかどうかを検証するわけです。
具体的には、「解熱剤である新薬は母集団において解熱効果がある」という仮説を立て、統計的手法を用いてこの仮説が正しいかどうかを確認します。確認する方法を「仮説検定(hypothesis test)」といいます。仮説検定は、「母集団仮説検定」「統計的検定」ともいわれています。
■帰無仮説、対立仮説とは(母平均の差の検定)
具体例として、解熱剤である新薬Yの投与前体温平均値と投与後体温平均値についてみてみましょう。
母集団における、新薬Yの投与前後の体温平均値は等しい。
母集団における、新薬Yの投与前後の体温平均値は異なる。
あるいは
母集団における、新薬Yの投与前後の体温平均値は投与後のほうが投与前より低い。
■p値、有意水準とは
このように仮説検定の公式によって求められた「p値」と統計学が決めた基準の値「有 意点」を比較します。有意点は通常は0.05が用いられます。
体をそらしてバーをくぐるリンボーダンスを例にすると、体の高さがp値、バーの高さが有意点。バーをくぐればセーフ、くぐれなければアウトです(図1)。
検定では、p値が有意点0.05を下回れば、2群の平均値に違いがあると判断します。
図1 有意点とp値のイメージ

■信頼度とは
p値が、有意点5%よりも小さいときは、「母集団における、新薬Yは投与前と投与後の体温平均値が異なる」を採択し、投与前後で体温平均値に違いがあったと判断します。
この判断はもしかしたら間違っているかもしれませんが、この判断が間違いである確率は5%以内ということになります。
信頼度(statistics confidence)は有意点の逆で、この判断が当たる確率(通常95%)のことです(図2)。
図2 信頼度と有意点のイメージ

■p値は、小さければ小さいほど差がある(よく効いた)といえるのか?
p値が、小さければ小さいほど差があるとはいえません。つまり、p値が小さいことを理由にして、大きな効果があったと結論付けることはできません。
p値の比較として、表の解熱効果を比較し、データでみてみましょう。
表 各薬剤の解熱効果の比較

新薬Yは、既存薬Xや新薬Zと比較し、体温低下の平均値は2.2と最も大きく熱を下げています。
そして、新薬Zも既存薬Xに比べて有意に熱を下げています。既存薬Xと新薬Yの検定から得られるp値は0.041、既存薬Xと新薬Zのp値は0.009でした。
仮にp値の大きさが小さいからという理由で薬剤を選択したら、新薬Zのほうが効果が大きい(良い結果)ことになってしまいます。
つまりp値の大きさによって薬剤を選ぶと、効果の低い薬剤を選んでしまうという間違った判断をしてしまいます。
p値は信頼度の強さの指標であって、効果の大きさの指標ではありません。単一のp値もしくは統計的有意性は、その結果である効果や重要性の大きさを測るものではないのです。実際に新薬Yも被験者数をもっと多くの人数で実施していたとしたら、p値は0.041よりも、もっと小さな値になるかもしれません。
値が非常に小さければ、それだけで何かが証明されるわけではなく、p値は5%程度でもいいから、きちんと計画された追試がいくつか行われて、一貫して同じ結果が得られるほうが重要だというわけです。
p値は目安ですので統計的には,次のようにおおまかな範囲を * 印の数で示すことがあります。
また、p>0.05 を有意でないという意味で n.s.(not significant)と書くことがあります。
■よくある誤った解釈
p<0.05であった場合、「有意差がある」といいます(図3)。
図3 有意差があるとは?

では、p>0.05の場合はどうでしょうか。「有意差がなかった」というのは正しい表現ですが、A群とB群は「有意差がなかったので同じである」とはいえません。
「有意差がなかった」というのは、「A群とB群で違いがみられなかった」あるいは、「A群とB群で違いがあるかどうかが、わからなかった」というのが正しい表現です。