信頼区間で統計結果をもっと明確に！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

信頼区間は、統計的有意性検定に代わる方法として注目されるべき手法です。p値が一般的に研究結果を示す指標として用いられる一方で、信頼区間は効果量を含む詳細な情報を提供し、結果の解釈を容易にします。例えば、ある薬が症状を平均36時間短縮するとき、95％信頼区間が24～48時間であると示せば、その推定値と不確かさが明示されます。信頼区間がゼロを含まなければ統計的に有意と判断されますが、p値に頼らず効果の臨床的重要性も評価可能です。しかし、多くの研究は信頼区間を十分に活用しておらず、代わりに有意性検定に依存しています。これは、統計教育の偏りや査読者の圧力、信頼区間の扱いに関する混乱が原因です。『ネイチャー』など権威ある学術誌でさえ、信頼区間や効果量の報告が不足しています。編集者が信頼区間の使用を義務づけた事例では、報告の改善が見られましたが、多くの研究者は信頼区間を適切に議論せず、有意性検定と同様に扱っています。信頼区間を普及させるには、教育や編集方針の見直しが必要です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次信頼区間で統計結果をもっと明確に！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

信頼を区間に対していだけ

「統計的に有意である」という言い回しが今や一般人の語彙に収められそうなぐらい，有意性検定は非常に注目を浴びるようになっている。

研究結果は，特に生物科学や社会科学では，ｐ値で示されることが普通だ。

しかし，ｐ値は証拠の重みを評価するための唯一の方法ではない。

信頼区間(confidence interval)もｐ値と同じ問題に答えることができる。

さらに，信頼区間の方がより多くの情報を示し，より分かりやすく結果を解釈できるという利点がある。

信頼区間とは点推定に推定の不確かさを加えたものだ。

例えば，新しい実験的な薬が，かぜの症状が続く期間を平均36時間減らすと述べた上で，その95％信頼区間は24時間から48時間の間だということを示せるだろう。
信頼区間は減らす期間の平均に対してのものだ。

個々の患者で，減らされる期間が大幅に違ったものになることはありえる。

もし100回同じ実験をしたら，信頼区間のうちおよそ95個が，測定しようとしているものの真の値を含む。

信頼区間は結論の不確かさを定量化する。

そして，効果量について何も言わないｐ値に比べてずっと多くの情報をもたらす。

効果が有意にゼロと異なっているかを調べたければ, 95%信頼区間を求めて，それがゼロを含んでいるかを確かめることもできる。

この方法では。推定がどれほど正確か分かるというおまけも得られる。

もし信頼区間が広すぎるのであれば，もっと多くのデータを集める必要があるかもしれない。

例えば，臨床試験を行う場合，薬が症状を15％から25％の範囲で減らすことを示す信頼区間を算出することがあるかもしれない。

区間がゼロを含んでいないため，この効果は統計的に有意だ。

さらに，問題となっている病気に関する臨床的な知識を活用して，この差の重要性を評価することができる。

ｐ値を使っていたときのように，このステップは重要だ。

結果を文脈において評価することなしに，大きな発見のように言いふらすべきではない。

もし症状がすでにほとんど害のないものになっていたら, 15%から25％の改善はあまり重要なものにならないだろう。

しかし一方で，人体自然発火のような症状ならば，どんな改善に対しても興奮するだろう。

結果をｐ値の形で書くかわりに信頼区間の形で書けるのならば，そう書くべきだ。

信頼区間を使うことで，ｐ値にまつわる解釈の把握しがたいところのほとんどが避けられ，結果としてもたらされた研究をぐんとはっきりさせる。

では，なぜ信頼区間はとても不人気なのだろうか？　

実験心理学の研究誌では，研究論文のうち, 97%が有意性検定を含んでいるのに対し，およそ10％しか信頼区間を報告していない。

研究論文のほとんどは，区間を結論を支える証拠として用いておらず，かわりに有意性検定を頼りにしている。

権威ある学術誌の『ネイチャー』（Nature）ですら不十分だ。

『ネイチャー』の記事の89％が信頼区間や効果量を報告せずにｐ値を報告し，文脈において結果を解釈できないようにしてしまっている。

ある学術誌の編集者は，｢進化上のニッチをどこかに持っていて，〔不幸にも〕引っかいても，たたいても，殺虫剤をまこうとも追い払うことができない｣という点で｢ｐ値は蚊のようなものだ｣と述べている。

この状況に対する説明として，信頼区間の幅がしばしば困惑するほど広いため，報告がなされないということが考えられる。

もう１つの説明としては，査読に基づく科学における同調圧力が強すぎることが挙げられる。

他の人と同じように統計をするのが最善で，そうしなければ査読者が論文を却下してしまうかもしれない。

あるいはｐ値についての混乱が広まっていることが信頼区間の利点を見えにくくしているのかもしれない。

もしくは，統計の授業で仮説検定が強調されすぎているために，ほとんどの科学者は，信頼区間をどのように計算してどのように用いるか，分からないようになってしまっているのだろう。

学術誌の編集者は時に信頼区間の報告を義務づけようとしてきた。 1980年代半ばに｢アメリカン・ジャーナル・オブ・パブリック・ヘルス｣の編集委員を務めたケネス・ロスマンは，強い語調の手紙を添えて，投稿されたものを突き返しはじめた。

「統計的仮説検定と統計的有意性に関する言及はすべて論文から削除されるべきです。私は統計的有意性に関するコメントとｐ値を削除するように求めています。もし私の基準（有意性検定の不適切さに関するもの）にご賛同いただけないようでしたら，この点に関してご遠慮なくご議論ください。さもなければ，他のいずこかで公刊することで，私の誤った見解だとあなたがお考えになっているかもしれないことを無視してください。」

ロスマンの編集委員としての３年の任期の間，ｐ値のみを報告する論文の割合は急減した。

ロスマンが退任した後，有意性検定は復活したが，その後の編集者も同じように研究者に対して信頼区間を報告させるようにうまく促している。

しかし，信頼区間を報告しているにもかかわらず，信頼区間について記事の中で議論したり，信頼区間を使って結論を導いたりする研究者はほとんどいなかった。

かわりに信頼区間を単に有意性検定のように取り扱うことを選んだのだ。

ロスマンは『エピデミオロジー』（Epidemiology）誌の創設に移った。同誌は，統計の報告について強硬な方針をとった。

当初，有意性検定に慣れていた執筆者は信頼区間と一緒にｐ値を報告することを好んだ。

しかし，10年経つと考えが変わり，信頼区間のみを報告することが普通に行われるようになった。

学術誌の編集者で勇気のある(そして忍耐できる)人は，ロスマンの例にならって，その分野における統計の慣行を変えることができるだろう。

信頼区間は統計的有意性検定の代替手法として注目されるべき重要な概念であり、研究結果を解釈する際の有用性が広く認識されています。有意性検定とp値は現在、多くの研究分野でデータの分析結果を示す標準的な方法として利用されていますが、その解釈には限界があり、研究者や一般の人々の間で混乱を招くこともあります。一方で信頼区間は、単なるp値以上に豊富な情報を提供し、研究の結論をより正確に示す手段として高く評価されています。信頼区間とは、点推定値に推定の不確かさを加味したものであり、例えば新薬が症状を平均36時間短縮すると報告される際に、95％信頼区間として24時間から48時間の範囲を提示することで、推定値の幅や信頼性が明確になります。この範囲は、データが十分に得られた場合において、その真の効果が含まれる可能性が高い領域を示しています。信頼区間を用いることで、p値では示されない効果量や結果の不確かさを直感的に理解することができます。信頼区間がゼロを含まない場合、それは統計的に有意な結果を意味しますが、それに加えて結果の実際的な重要性についても議論が可能です。例えば、臨床試験で薬が症状を15％から25％の範囲で改善することを示す信頼区間が得られた場合、この改善が病気に対して有意義であるかどうかを評価することができます。逆に、症状がもともと軽微であれば、この改善が臨床的に重要でない可能性もあります。このように、信頼区間は単なる有意性検定を超えて結果の実用的意義を議論するための基盤を提供します。しかしながら、信頼区間が十分に活用されていない現状もあります。『ネイチャー』などの著名な学術誌においても、p値が頻繁に報告される一方で、信頼区間や効果量の報告は少数にとどまっており、結果の文脈的解釈が困難になっています。例えば、『ネイチャー』の記事の89％が信頼区間を報告せず、代わりにp値を用いて結果を示しているという調査結果があります。このような状況は、統計教育の偏りや査読者からの同調圧力、あるいは信頼区間の計算や解釈に関する理解不足によるものと考えられます。実際、統計教育において仮説検定が強調されすぎているため、多くの研究者は信頼区間をどのように計算し、どのように活用すればよいかを十分に理解していません。また、信頼区間の幅が広すぎる場合、データが不足していると判断されることもあり、このことが信頼区間の報告を避ける一因ともなっています。それでもなお、信頼区間を普及させるための試みがなされてきました。例えば、1980年代に『アメリカン・ジャーナル・オブ・パブリック・ヘルス』の編集委員であったケネス・ロスマンは、統計的仮説検定に過度に依存する論文を排除し、信頼区間の報告を義務付けるよう努めました。彼はp値の削除を強く求める手紙を論文の投稿者に送り、統計的有意性の記述を削除するよう指示しました。この方針の結果、p値の報告が急激に減少し、信頼区間の使用が増加しました。ロスマンの編集方針はその後も影響を及ぼし、学術誌の編集者が統計報告の方針を変更することで、研究の質を向上させる可能性があることを示しました。しかし、信頼区間を報告する研究が増加した後も、信頼区間を適切に解釈し、それを基に結論を導き出す研究者は依然として少数派です。多くの研究者は信頼区間を単に有意性検定のように扱い、その真の利点を活用していません。信頼区間を適切に使用するには、教育の改善と編集方針の見直しが不可欠です。また、信頼区間を用いることで研究結果をより透明で理解しやすくすることができ、p値に依存することによる誤解や偏りを減らすことができます。ロスマンの例のように、勇気ある編集者がその分野の統計慣行を変える役割を果たすことが可能であり、統計教育の改善とともに信頼区間の普及が進むことが期待されます。

関連記事

検定力が足りない危険性

金融・保険に関する統計

有意標本

割り当て標本抽出法

フェーズ２（第２相）：研究デザインと計画の相

Pythonのオブジェクト指向機能

停止規則と偽陽性率

分布の広がりを知るための数値

統計学における減価償却

統計学における因子分析

前へ

1

2

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

信頼区間で統計結果をもっと明確に！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

信頼区間で統計結果をもっと明確に！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

信頼を区間に対していだけ

サブメニュー

最新記事