ノンパラメトリック法の秘密:Wilcoxonと多重比較法【ChatGPT統計解析】
ノンパラメトリック法(distribution-free methods)は、特定の確率分布を仮定せずにデータを分析する方法です。Wilcoxonの順位和検定やWilcoxonの符号付き順位和検定が代表的です。独立した2群を比較する場合、Wilcoxonの順位和検定が使われ、対応のあるデータの場合はWilcoxonの符号付き順位和検定が用いられます。多群を比較する際にはKruskal-Wallis検定が用いられ、これは一元配置分散分析のノンパラメトリック版です。多重比較法としては、Bonferroni法、Holm法、Tukey法があり、これらは複数の群の比較で生じる誤差を調整するために使用されます。Bonferroni法は最も単純で保守的ですが、検出力が低いという特徴があります。Holm法はBonferroni法の拡張版で、より高い検出力を持ちます。Tukey法は多くの比較を行う際に適しており、検出力が高い方法です。多重比較法は、複数の検定を行う際の誤差率を調整する重要な手法です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 ノンパラメトリック法の秘密:Wilcoxonと多重比較法【ChatGPT統計解析】
ノンパラメトリック法
ノンパラメトリック法(distribution-free methods)は、データの分布に正規分布やt-分布のような特定の確率分布を仮定しない方法です。
一般にデータは、
@連続型データであるが左右対称な正規分布に従わない場合(特に正の値しかとらないデータで標準偏差が平均と同程度以上の場合、分布の歪みが示唆される)
A離散型データ(例:スコア)であり正規分布とみなせない場合
などが多いため、ノンパラメトリック法が求められることも多いです。
ノンパラ検定と略されることもあります。
2標本t-検定、対応のあるt-検定、一元配置分散分析に対応するノンパラメトリック検定としては、Wilcoxonの順位和検定、Wilcoxonの符号付き順位和検定、Kruskal-Wallis検定の順序で解説します。
独立な2群の場合:Wilcoxonの順位和検定
データに正規性が成り立たない場合のノンパラメトリック検定として、Wilcoxonの順位和検定(Wilcoxon’s rank sum test)があります。
ちなみに、ノンパラ検定では、データの分布に正規分布などの特定の分布を仮定せず、比較する群間でデータの分布の形が同様であることのみを仮定します。
以下の例題の場合、Wilcoxonの順位和検定は、22例のデータに順位(rank)をつけ、2群の間で平均順位を比較します。
順位のみを用いるため、データに正規性の仮定が不要で、外れ値に対して頑健性を持ちます。
以下の表はデータに順位をつけたものであり、検定では、単剤群と併用群の順位和である174と79を例数で割った平均順位を比較します。
検定の手順を次に示します。ノンパラ検定でも手順は3 stepです。
<手順1>
下記の仮説を考えます(両側検定のみ解説します)。ここで、δは処置群と対照群の分布の位置(例えば中央値)の差です。
<手順2>
2つの群のデータ全体に対して順位(rank)を付けます。
同順位(ties)がある場合には平均順位(例:順位が3のデータが2つある場合は、両者の順位を3.5とする)をつけます。
データから下記のz統計量を計算します。この検定統計量は、H0の下、近似的に標準正規分布に従います。
ここで、Wは処置群の順位和、E[W]およびVar[W]はWのH0の下でのそれぞれ平均と分散であり、処置群と対照群のデータ数をmおよびnとすると、下式で計算できます。
なお、同順位のデータ(タイデータ)がある場合には、順位和の分散に修正が必要です。
P値の計算および有意性の判定は、Z統計量が帰無仮説の下で近似的に標準正規分布に従うことを利用して、パラメトリック検定と同様に行います。
Wilcoxonの順位和検定は、Mann-WhitneyのU検定と本質的に同じ検定であるため、論文でMann-Whitney検定やU検定などと記述されることもあるが、全て同じP値(結論)を与えます。
2標本t-検定の臨床試験データを、Wilcoxonの順位和検定を用いて解析してみましょう。
併用群(m=11)および単剤群(n=11)における投与8週後のLDL-Cの変化率(%)の順位和は、それぞれ79および174です。
このとき、H0:δ=0を有意水準5%で検定してみましょう。
帰無仮説(δ=0)の下での、期待値と分散は、それぞれ、
となります。したがって、検定統計量は、
となって、H0の下で、Z統計量は近似的に標準正規分布に従うため、
P値(Zが3.119以上)=0.0018 となり、H0は棄却されます。
よって、母集団でのLDL-Cの変化率の分布に関して、併用群と単剤群の間に有意な差がみられました。
なお、この例はデータの形が正規分布に近いため、2標本t-検定の結果(p=0.0007)とほぼ同様の結果でした。
統計ソフトウェアによっては、統計量の計算において、連続量でない順位和を正規近似することに対する補正を施します。
その場合は、Z統計量の分子の絶対値の中を、順位和−期待値−1/2とするため、P値が若干大きくなります。
対応のあるデータの場合:Wilcoxonの符号付き順位和検定
対応のあるデータを用いて2群の分布を比較するノンパラメトリック検定は、Wilcoxonの符号付き順位和検定(Wilcoxon’s signed rank test)です。
この検定は対応のあるt-検定のノンパラ検定です。
同じデータでもう一度考える。データには対応があるため、被験者の中で2つの群の差(T群−C群)をとることができます。
このとき、表に示すように、@差が0のデータは取り除く、Aこの差の「絶対値」に順位をつけ、B順位に差(T群−C群)の符号を付し、符号付き順位を求めるという作業を行います。
仮に2つの群で分布の位置に差がない(=帰無仮説)ならば、符号が正の順位の和は符号が負の順位の和とほぼ等しくなるはずです。
符号付き順位和検定はこのような論理に基づく検定である。以下に検定手順を示します。
<手順1>
下記の仮説を考える(両側検定のみ解説する)。ここで、μTとμCはそれぞれ処置群と対照群の分布の中央値とします。
<手順2>
各個体に対して、2つの群の差(T群−C群)を計算し、差が0の個体は取り除きます。
差の「絶対値」に順位をつける。同順位がある場合には平均順位をつけます。
その順位に差(T群−C群)の符号を付けた符号付き順位を計算します。
次に、データから下記のZ統計量を計算します。
この検定統計量は帰無仮説の下、近似的に標準正規分布に従います。
W+は符号が正の順位の和です。
はW+のH0の下での平均
はW+のH0の下での分散です。
個体数をnとすると、下式で計算できます。
なお、タイデータがある場合には、順位和の分散に修正が必要です。
<手順3>
P値の計算および有意性の判定は、Z統計量が帰無仮説の下で近似的に標準正規分布にしたがうことを利用して、パラメトリック検定と同様に行います。
表の臨床試験の収縮期血圧の差(処置前−処置後)の符号が正のものの順位和はW+=12です。
このとき、帰無仮説を有意水準両側5%で検定してみましょう。
帰無仮説(δ=0)の下での、期待値と分散は、それぞれ、
となります。したがって、Z統計量は、
となります。
H0の下で、Z統計量は近似的に標準正規分布に従うため、P値(Zが2.118以上)=0.034となり、投与前後で収縮期血圧の中央値に有意差がみられました。
なお、この例では、データが正規分布に近いため、対応のたるt-検定の結果(p=0.030)とほぼ同様の結果が得られました。
多群の場合:Kruskal-Wallis検定
ここでは、独立な多群の母平均を比較する一元配置分散分析に対応するノンパラメトリック検定であるKruskal-Wallis検定を解説します。
以下に検定手順を示します。
<手順1>
仮説は下記のようになる。ここで、μiは母集団における第i群の中央値です。
<手順2>
α個の群のデータ全体に対して順位をつける。タイがある場合には平均順位をつけます。
データから下記のH統計量を計算する。この検定統計量は帰無仮説(H0)の下、近似的に自由度α−1のカイ2乗分布にしたがいます。
ここで、Nは総例数、niおよびRiはそれぞれ第i群の例数および平均順位です。
なお、タイデータがある場合は補正が必要です。
<手順3>
P値の計算および有意性の判定は、H統計量が帰無仮説の下で近似的に自由度α−1のカイ2乗分布に従うことを利用して、パラメトリック検定と同様に行います。
Kruskal-Wallis検定は、H統計量を用いるためH検定と呼ばれることもある。また、群の数が2の場合、Kruskal-Wallis検定はWilcoxonの順位和検定に一致します。
一元配置分散分析のときと同じデータを用いて解析します。
プラセボ群(n1=12)、A薬群(n2=10)、B薬群(n3=15)、C薬群(n4=11)の投与8週後のLDL-Cの変化率(%)の順位和は、それぞれ475, 247, 326, 128であり、平均順位和は、それぞれ39.6, 24.7, 21.7, 11.6です。
この時、帰無仮説を有意水準両側5%で検定してみましょう。
H検定統計量は、
となります。
H0の下で、H統計量は自由度3のカイ2乗分布にしたがうため、
P値(χ2乗値が23.806以上)<0.0001となり、H0は棄却され、4群間で、LDL-Cの変化率の中央値に関し有意な差が示されました。
すなわち、投与群全体の効果は有意でした。
なお、この例でも、データが正規分布に近いため、一元配置分散分析の結果と同様の結果でした。
まとめ
@母集団の分布に特定の確率分布を仮定しない統計手法です。
Aノンパラメトリック法はデータを順位に変換し推測を行うため、特に外れ値に対して頑健な手法です。
多重比較法:Bonferroni法・Holm法・Tukey法
一元配置分散分析は、複数の群全体における母平均の差を検出するものであるため、どの2群の間に差があるかはわかりません。
このため、医学研究では、一元配置分散分析を用いた群全体での平均の比較と同様、多群の中の2群のペアで母平均を比較することに研究の興味があることが多いです。
この時、検定(例えば2標本t-検定)を複数回行うと、いずれかの検定で第一種の過誤が生じる確率が名目の有意水準(例:両側5%)よりも増大する検定の多重性(multiplicity)の問題が生じます。
そこで、多重比較法(multiple comparison procedure)という多重性の調整法が必要となります。
図のベン図は、検定の多重性を示したものです。
3つの個々の検定(比較)で第一種の過誤が生じる場合をそれぞれ3つの円で表すと、各円の事象が生じる確率は両側α=0.05としても、3つの検定いずれかで第一種の過誤が生じる事象(3つの円の和集合)の確率は0.05よりも増大することがわかります。
多重比較法の用語を以下にまとめます。
上の例では、3つの帰無仮説を検定していますが、検定全体と考える仮説の集合を仮説のfamilyと呼びます。
そして、検定を複数回行う際、仮説のfamilyの中で、誤って1つ以上の帰無仮説を棄却する確率を、Type 1 FWER(family-wise error rate)と呼びます。
そして、多重比較法とは、個々の検定の有意水準を調整して(各検定のαを小さくして)、Type1FWERを両側0.05以下に抑える方法論です。
多重比較法は多くの手法が提案されていますが、ここでは連続型の評価項目Yに対して、2標本t-検定を用いる場合の多重比較法に焦点を当てて解説します。
まず、最も単純な方法で適用範囲も広いが検出力が低い(これを保守的conservativeという)手法であるBonferroni法(ボンフェローニ)を紹介します。
次いで、Bonferroniの拡張版であるHolm法(ホルム)を紹介し、最後にTukey法(テューキー)とDunnett法(だネット)を解説します。
Bonferroni法
Bonferroni法は、検定をk回行う場合、下のベン図のように、各検定の有意水準αをα/kと調整する方法です。
例えば、検定を2回行う場合、両側有意水準は0.025であり、3回行う場合、両側有意水準は0.05/3=0.0167となります。
このため、Bonferroni法は検定の数が多くなると検定が有意になりづらくなり、保守的な検定として知られています。
また、上の解説では検定の有意水準を調整する方法を示しましたが、多重比較法では個々の検定の両側有意水準は0.05としてP値を調整する(調整済みP値と呼ぶ)方法もあります。
Bonferroni法の調整済みP値は、
調整済みP値=(無調整P値)×(検定の回数k)
と計算します。
ただし、P値は確率であるため、調整済みP値は1を超えないものとします。
医学論文では多重比較法を用いる場合、P値がいずれのものであるか(調整済みまたは無調整)を明記することが重要です。
一元配置分散分析で用いた例題において、例えば4群の中のすべての2群の組(6通り)に対して比較を行い、Bonferroni法を用いて多重性の調整を行ってみましょう。
以下に、SPSSを用いて、上記の各比較に対して、Bonferroni法で調整したP値を計算した結果を示します。
SPSSの一元配置分散分析の機能の中の、「その後の検定」により実行できます。
ここで、群変数(group)は、プラセボ群=0、A薬群=1、B薬群=2、C薬群=3で表されています。
SPSSの場合、出力の3列目の有意水準は、調整済みp値であるため、p<=0.05のとき、Bonferroni法による検定結果は有意であると判定します。
Holm法
Holm法はBonferroni法の拡張版です。
Bonferroni法がすべての検定で事前に決めた等しい有意水準(例えば4回検定を行う場合、両側α=0.0125)を用いるのに対して、Holm法は個々の検定結果(P値)に基づき検定の帰無仮説を並べ替え、逐次的に検定の有意水準を変えます。
このため、Holm法は、sequentially rejectiveあるいはstep-down手順と呼ばれる手法に分類されます。
検定の手順を以下に示します。
@無調整P値が小さい順に帰無仮説を並べ替える
AJ番目の帰無仮説を有意水準α/k-j+1 で検定する。ただしkは検定の数
B検定が有意でなくなるまでAを続ける
例えばk=5回の検定を行う場合、下表にj番目の検定の両側有意水準をHolm法とBonferroni法について示しました。
最初の検定では、Holm法の有意水準はBonferroni法のαと等しいですが、2回目以降の検定では有意水準が大きくなるため、Holm法はBonferroni法よりも検出力が高くなります。
また、Holm法の調整済みP値は、調整していないP値にj番目の検定のαの分母である(k-j+1)を掛ければよいです。
例えば5回検定を行う場合、1番目は5倍、2番目は4倍、のように計算します。
Bonferroni法の際の例題と同じ6回の検定の多重性をHolm法により調整してみましょう。
検定結果は以下である。Holm法は、P値で並べ替えた後半の検定では、調整P値が無調整P値と同様になるため、検出力が高いことがみてとれます。
ここでは、Holm法では、B薬とC薬の間の差が有意であるが、Bonferroni法では有意でないという結果になっています。
Tukey法
Tukey法(正確にはTukey-Kramer法)は、多群のすべての2群の組の比較に医学的な関心がある場合の多重比較法です。
Bonferroni法のようにすべての検定に対して同じ有意水準を用います。
例えば、ある臨床研究で10個の処置群がある場合、45組の2群のペアの比較すべてに対して多重性を調整するのがTukey法です。
一般にTukey法では比較の数が多くなるため、検定が保守的であることが知られていますが、簡便なBonferroni法と比較すると検出力が高い手法です。
Tukey法は、Type1FWERを名目水準(α=0.05)に抑えるように多重積分を用いて棄却限界値を計算し、P値を計算していますが、近年の統計ソフトウェアでは標準的に使用できる手法となっています。
なお、Tukey法は、Honestly Significant Difference(HSD)法とも呼ばれることがあります。
関連リンク