ハザード比という指標|【統計学・統計解析講義応用】
時々刻々変化する死亡率
まずは次の新聞記事を読んでみてください。
コーヒー1日4杯で、死亡リスク高まる。
55歳未満男性1.5倍、女性2.1倍(米国研究チーム4万人調査)
毎日4杯以上のコーヒーを飲む55歳未満の人は、飲まない人に比べ、死亡率が高いとする疫学調査結果を、米〇〇大などが米医学誌に発表した。
研究チームは、「若い人はコーヒーを毎日3杯までに」と注意を呼びかけている。
チームが、米国の約4万4千人にコーヒーを飲む習慣を書面で尋ね、その後17年ほど死亡記録などを調べた。
その結果、55歳未満に限ると週に28杯以上コーヒーを飲む人の死亡率は、男性では1.5倍、女性では2.1倍になっていた。
55歳以上では変化はなかった。
コーヒーは世界で最もよく飲まれている飲み物の1つだが健康への影響はよくわかっていない。
世界保健機構(WHO)の国際がん研究機構は1991年、膀胱がんについてコーヒーを「発がん性の可能性がある」物質に分類、含まれるカフェインが心臓に負担をかけるとの見方もある。
一方で、米国立保健研究所(NIH)などは昨年、50-71歳以上の男女40万人対象の疫学調査で、コーヒーを1日3杯以上飲む人の死亡率が1割ほど低いとの結果を発表している。
また含まれる抗酸化物質が健康にいいとする研究もある。
全日本コーヒー協会によると、日本人はコーヒーを週平均10.7杯(1日1.5杯程度)飲んでいる。
1日にコーヒーを4杯以上飲む55歳未満の人は、飲まない人に比べて死亡率が高いとのことです。
コホート研究で、交絡を調整した結果でしょう。
さて、死亡率ですが、ここでは割合の意味ではなく、率の意味で使われているのだと思います。
しかも、おそらく人年法を用いて計算したわけでもないと思います。
つまり、「死亡率が常に一定である」ことを前提としているわけではないということです。
だとすると、時々刻々変化するかもしれない死亡率を評価していることになるのですが、そんな難しそうなこと、一体どうやってするのでしょうか。
そして、なぜ時々刻々変化するかもしれないものを「男性では1.5倍、女性では2.1倍」というように、1つの数値で表せるのでしょうか。
生存曲線について、例えば「新治療群と標準治療群の比較」というように、グループ間の比較をすることを考えてみましょう。
例として、ユーイング肉腫(一種の骨のがん)患者を対象に、術後化学療法の新治療群と標準治療群の無病生存期間(治療後、再発や他の病気がなく生存している期間)を比較する観察研究のデータを用います。
新治療群47名と標準治療群29名が対象です。
生存期間中央値は、生存曲線より、新治療群では3年、標準治療群では1年2カ月と推定されました。
この推定値から、無病生存期間が1年10カ月も延長する。新治療は有効だと結論づけてもよいものなのでしょうか。
生存期間中央値というのは、生存割合が50%になる1ポイントを示しているにすぎません。
たった1ポイントで比較しているということは、生存曲線全体からの情報を用いていることにはなりません。
生存割合が50%となる時点さえ同じであれば、生存曲線の形がどうなっていようと関係ない、ということになってしまいます。
例えば、極端な話、生存割合が50%となる時点を過ぎた直後に、新治療群の残り全員がイベントを発生して、標準治療群の残り全員がイベントを発生しなくても、生存期間中央値という1ポイントで比較している限りは、そんなこと全く関係なくなってしまうのです。
〇年生存割合についても同じことです。
生存期間中央値や〇年生存割合での比較は、あくまでも1時点での比較であり、生存曲線全体を比較していないのです。
生存期間中央値や〇年生存割合は目安としては非常に使い勝手の良い指標ですが、目安以上の役割を担わせようとすると、誤った結論を導き出しかねないのです。
こういった指標ばかりに注目せずに、
生存曲線を見ることが大事なのです。
では、どのようにして生存曲線(全体)を比較すればよいのでしょうか。
ログランク検定
生存曲線(全体)を比較するための統計的仮説検定を考えてみましょう。
帰無仮説を「2つのグループの生存曲線が等しい」として、この仮説が否定できるかどうかをデータから検討します。
生存曲線(全体)を比較するために、まずイベントが起こった時点ごとに「実際の新治療群のイベント発生数」と「帰無仮説が正しいと仮定した場合の新治療群の期待イベント発生数」のズレ(差)を計算します。
このイベント発生数のズレをすべての時点で併合します。
重みを付けて足し算をするということです。
そうすると、もし新治療群でばかりイベントが発生していたら合計がプラスの値になるし、逆にもし標準治療群でばかりイベントが発生していたら合計がマイナスの値になります。
そして、どちらかのグループでばかりイベントが発生するということがなければ、合計が0に近くなります。
逆に言うと、合計が0に近いときには、帰無仮説「2つのグループの生存曲線が等しい」が間違っているとは言いにくくなります。
つまり、p値が大きい値として計算されることになるのです。
すべての時点の情報を使っているので、生存曲線全体からの情報を用いています。
イベント発生数のズレをすべての時点で併合する方法(重みの付け方)にはいくつかの方針があって、その方針ごとに異なる名前が付いた検定手法となっています。
その中でも、おそらく最も多く使われるのがログランク検定と呼ばれるものです。
実際の計算は統計ソフトに任せましょう。
生存時間解析におけるハザード比
比例ハザード性という条件
では、比較するグループ間でイベント発生率はどのくらい違うのでしょう。
時々刻々変化するイベント発生率を直接評価するのは難しいのですが、グループ間のイベント発生率の「比」なら評価することができます。
ただし、比例ハザード性と呼ばれる前提条件が必要となります。
ハザードという言葉は、生存時間解析においては、イベント発生率です。
したがって、グループ間のイベント発生率の比のことを、ハザード比と呼びます。
では、比例ハザード性とは何かというと、
グループ間のイベント発生率の比は時間によらず一定
という条件です。
グループ間のイベント発生率の比が時間によらず一定であればそれでよいのであって、イベント発生率自体は時間とともに変化してもよいのです。
人年法の計算結果が正しいためには、イベント発生率は時間によらず一定という条件が必要だったことを思い出してもらうと、比例ハザード性の条件の方が緩い条件だということがわかります。
比例ハザードモデル
では、比例ハザード性という条件の下で、どのようにハザード比を評価するのでしょうか。
まずは、新治療を受けた人と標準治療を受けた人がいるときに、ハザード(イベント発生率)が何に影響されるのかを考えてみましょう。
一つはもちろん治療ですが、どちらの治療を受けるかによってハザード(イベント発生率)が変わる可能性があります。
そしてもう一つは時間です。時々刻々ハザード(イベント発生率)が変化するかもしれません。
したがって、ハザードは治療と時間によって決まることになります。
ハザード=時間の効果×治療の効果
と考えて、次の回帰モデルで表します。
Hx(t)=α(t)×exp(βX)
ここで、新治療群ならX=1、標準治療群ならX=0です。
各グループの(時々刻々変化する)ハザードHx(t)は、時間の効果α(t)と治療の効果exp(βX)で決まるということです。
βをデータから推定することになります。実際の推定は統計ソフトに任せましょう。
この回帰モデルから、新治療群のハザードは、
H1(t)=α(t)×exp(β)
となって、標準治療群のハザードは、
H0(t)=α(t)×exp(β×0)=α(t)
となります。この2つの比をとることで、ハザード比は、
H1(t)/ H0(t)=exp(β)
となります。
各グループのハザードは時間の関数ですが、ハザード比は時間によらず一定で、比例ハザード性の条件を満たしています。
比例ハザード性の条件が用いられたこの回帰モデルのことを、特に比例ハザードモデルと呼びます。
比例ハザードモデルは、Cox先生によって開発されたので、Cox比例ハザードモデルと言ったり、Cox回帰モデルと言ったりすることもあります。
比例ハザードモデルをユーイング肉腫の例に適用してみると、
Hx(t)=α(t)×exp(−0.6274X)
となりました。
ハザード比は、
H1(t)/ H0(t)=exp(β)=exp(−0.6274)=0.53
となります。
比例ハザードモデルによる交絡の調整
観察研究では、新治療群と標準治療群で何かしらの要因が異なっている可能性があります。
つまり、交絡が起きている可能性があります。
調べたい要因(新治療か標準治療か)がイベント発生までの時間に関係しているのか、比較するグループ間の特徴の違いがイベント発生までの時間に関係しているのかが、区別できなくなってしまっているのです。
交絡を調整するための比例ハザードモデル
であれば、生存時間解析でも交絡を調整してみましょう。
交絡を調整するための回帰モデルを比例ハザードモデルに応用すればよいのです。
今度は交絡の影響も考慮に入れることになるので、
ハザード=時間の効果×治療の効果×交絡の影響
と考えます。
式で書くと、
Hx(t)=α(t)×exp(βX)×exp(γ1C1+γ2C2+・・・)
=α(t)×exp(βX+γ1C1+γ2C2+・・・)
が交絡を調整するための比例ハザードモデルになります。
C1、C2・・・が交絡要因です。
例えば、
C1が年齢:50歳以上ならC1=1、50歳未満ならC1=0
C2が性別:男性ならC2=1、女性ならC2=0
といった具合です。交絡を調整したハザード比は、やはりexp(β)です。
比例ハザードモデルでは、交絡要因の各層で効果が等しいことを前提として交絡を調整している。
比例ハザードモデルが厳密に正しいモデルであることはほとんどあり得ない。
データ数に対しても交絡要因の数が多いとうまく推定できなくなってしまうことがある点も同様です。
関連記事