ノンパラメトリック法の秘密：Wilcoxonと多重比較法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

ノンパラメトリック法の秘密：Wilcoxonと多重比較法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
ノンパラメトリック法（distribution-free methods）は、特定の確率分布を仮定せずにデータを分析する方法です。Wilcoxonの順位和検定やWilcoxonの符号付き順位和検定が代表的です。独立した2群を比較する場合、Wilcoxonの順位和検定が使われ、対応のあるデータの場合はWilcoxonの符号付き順位和検定が用いられます。多群を比較する際にはKruskal-Wallis検定が用いられ、これは一元配置分散分析のノンパラメトリック版です。多重比較法としては、Bonferroni法、Holm法、Tukey法があり、これらは複数の群の比較で生じる誤差を調整するために使用されます。Bonferroni法は最も単純で保守的ですが、検出力が低いという特徴があります。Holm法はBonferroni法の拡張版で、より高い検出力を持ちます。Tukey法は多くの比較を行う際に適しており、検出力が高い方法です。多重比較法は、複数の検定を行う際の誤差率を調整する重要な手法です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次ノンパラメトリック法の秘密：Wilcoxonと多重比較法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

ノンパラメトリック法

独立な２群の場合：Wilcoxonの順位和検定

対応のあるデータの場合：Wilcoxonの符号付き順位和検定

多群の場合：Kruskal-Wallis検定

多重比較法：Bonferroni法・Holm法・Tukey法

ノンパラメトリック法

ノンパラメトリック法（distribution-free methods）は、データの分布に正規分布やt-分布のような特定の確率分布を仮定しない方法です。

一般にデータは、

①連続型データであるが左右対称な正規分布に従わない場合（特に正の値しかとらないデータで標準偏差が平均と同程度以上の場合、分布の歪みが示唆される）

②離散型データ（例：スコア）であり正規分布とみなせない場合

などが多いため、ノンパラメトリック法が求められることも多いです。

ノンパラ検定と略されることもあります。

２標本t-検定、対応のあるt-検定、一元配置分散分析に対応するノンパラメトリック検定としては、Wilcoxonの順位和検定、Wilcoxonの符号付き順位和検定、Kruskal-Wallis検定の順序で解説します。

独立な２群の場合：Wilcoxonの順位和検定

データに正規性が成り立たない場合のノンパラメトリック検定として、Wilcoxonの順位和検定（Wilcoxon’s rank sum test）があります。

ちなみに、ノンパラ検定では、データの分布に正規分布などの特定の分布を仮定せず、比較する群間でデータの分布の形が同様であることのみを仮定します。

以下の例題の場合、Wilcoxonの順位和検定は、22例のデータに順位（rank）をつけ、２群の間で平均順位を比較します。

順位のみを用いるため、データに正規性の仮定が不要で、外れ値に対して頑健性を持ちます。

以下の表はデータに順位をつけたものであり、検定では、単剤群と併用群の順位和である174と79を例数で割った平均順位を比較します。

検定の手順を次に示します。ノンパラ検定でも手順は3 stepです。

＜手順１＞
下記の仮説を考えます（両側検定のみ解説します）。ここで、δは処置群と対照群の分布の位置（例えば中央値）の差です。

＜手順２＞
２つの群のデータ全体に対して順位（rank）を付けます。

同順位（ties）がある場合には平均順位（例：順位が３のデータが２つある場合は、両者の順位を3.5とする）をつけます。

データから下記のz統計量を計算します。この検定統計量は、H0の下、近似的に標準正規分布に従います。

ここで、Wは処置群の順位和、E[W]およびVar[W]はWのH0の下でのそれぞれ平均と分散であり、処置群と対照群のデータ数をmおよびnとすると、下式で計算できます。

なお、同順位のデータ（タイデータ）がある場合には、順位和の分散に修正が必要です。

Ｐ値の計算および有意性の判定は、Z統計量が帰無仮説の下で近似的に標準正規分布に従うことを利用して、パラメトリック検定と同様に行います。

Wilcoxonの順位和検定は、Mann-WhitneyのU検定と本質的に同じ検定であるため、論文でMann-Whitney検定やU検定などと記述されることもあるが、全て同じＰ値（結論）を与えます。

２標本t-検定の臨床試験データを、Wilcoxonの順位和検定を用いて解析してみましょう。

併用群（m=11）および単剤群（n=11）における投与８週後のLDL-Cの変化率（％）の順位和は、それぞれ79および174です。

このとき、H0：δ=0を有意水準5%で検定してみましょう。

帰無仮説（δ=0）の下での、期待値と分散は、それぞれ、

となります。したがって、検定統計量は、

となって、H0の下で、Ｚ統計量は近似的に標準正規分布に従うため、

P値（Ｚが3.119以上）＝0.0018 となり、H0は棄却されます。

よって、母集団でのLDL-Cの変化率の分布に関して、併用群と単剤群の間に有意な差がみられました。

なお、この例はデータの形が正規分布に近いため、２標本t-検定の結果（p=0.0007）とほぼ同様の結果でした。

統計ソフトウェアによっては、統計量の計算において、連続量でない順位和を正規近似することに対する補正を施します。

その場合は、Ｚ統計量の分子の絶対値の中を、順位和－期待値－1/2とするため、Ｐ値が若干大きくなります。

対応のあるデータの場合：Wilcoxonの符号付き順位和検定

対応のあるデータを用いて２群の分布を比較するノンパラメトリック検定は、Wilcoxonの符号付き順位和検定（Wilcoxon’s signed rank test）です。

この検定は対応のあるt-検定のノンパラ検定です。

同じデータでもう一度考える。データには対応があるため、被験者の中で２つの群の差（T群－C群）をとることができます。

このとき、表に示すように、①差が0のデータは取り除く、②この差の「絶対値」に順位をつけ、③順位に差（T群－C群）の符号を付し、符号付き順位を求めるという作業を行います。

仮に２つの群で分布の位置に差がない（＝帰無仮説）ならば、符号が正の順位の和は符号が負の順位の和とほぼ等しくなるはずです。

符号付き順位和検定はこのような論理に基づく検定である。以下に検定手順を示します。

＜手順１＞
下記の仮説を考える（両側検定のみ解説する）。ここで、μTとμCはそれぞれ処置群と対照群の分布の中央値とします。

＜手順２＞
各個体に対して、２つの群の差（T群－C群）を計算し、差が0の個体は取り除きます。

差の「絶対値」に順位をつける。同順位がある場合には平均順位をつけます。

その順位に差（T群－C群）の符号を付けた符号付き順位を計算します。

次に、データから下記のＺ統計量を計算します。

この検定統計量は帰無仮説の下、近似的に標準正規分布に従います。

W+は符号が正の順位の和です。

はW+のH0の下での平均

はW+のH0の下での分散です。

個体数をnとすると、下式で計算できます。

なお、タイデータがある場合には、順位和の分散に修正が必要です。

＜手順３＞
Ｐ値の計算および有意性の判定は、Ｚ統計量が帰無仮説の下で近似的に標準正規分布にしたがうことを利用して、パラメトリック検定と同様に行います。

表の臨床試験の収縮期血圧の差（処置前－処置後）の符号が正のものの順位和はW+=12です。

このとき、帰無仮説を有意水準両側5%で検定してみましょう。

帰無仮説（δ＝0）の下での、期待値と分散は、それぞれ、

となります。したがって、Ｚ統計量は、

となります。

H0の下で、Ｚ統計量は近似的に標準正規分布に従うため、Ｐ値（Ｚが2.118以上）＝0.034となり、投与前後で収縮期血圧の中央値に有意差がみられました。

なお、この例では、データが正規分布に近いため、対応のたるt-検定の結果（p=0.030）とほぼ同様の結果が得られました。

多群の場合：Kruskal-Wallis検定

ここでは、独立な多群の母平均を比較する一元配置分散分析に対応するノンパラメトリック検定であるKruskal-Wallis検定を解説します。

以下に検定手順を示します。

＜手順１＞
仮説は下記のようになる。ここで、μiは母集団における第i群の中央値です。

＜手順２＞
α個の群のデータ全体に対して順位をつける。タイがある場合には平均順位をつけます。

データから下記のＨ統計量を計算する。この検定統計量は帰無仮説（H0）の下、近似的に自由度α－１のカイ2乗分布にしたがいます。

ここで、Ｎは総例数、niおよびRiはそれぞれ第i群の例数および平均順位です。

なお、タイデータがある場合は補正が必要です。

＜手順３＞
Ｐ値の計算および有意性の判定は、Ｈ統計量が帰無仮説の下で近似的に自由度α－１のカイ2乗分布に従うことを利用して、パラメトリック検定と同様に行います。

Kruskal-Wallis検定は、Ｈ統計量を用いるためＨ検定と呼ばれることもある。また、群の数が２の場合、Kruskal-Wallis検定はWilcoxonの順位和検定に一致します。

一元配置分散分析のときと同じデータを用いて解析します。

プラセボ群（n1=12）、Ａ薬群（n2=10）、Ｂ薬群（n3=15）、Ｃ薬群（n4=11）の投与8週後のLDL-Cの変化率（％）の順位和は、それぞれ475, 247, 326, 128であり、平均順位和は、それぞれ39.6, 24.7, 21.7, 11.6です。

この時、帰無仮説を有意水準両側５％で検定してみましょう。

Ｈ検定統計量は、

となります。

H0の下で、H統計量は自由度３のカイ2乗分布にしたがうため、

P値（χ2乗値が23.806以上）＜0.0001となり、H0は棄却され、４群間で、LDL-Cの変化率の中央値に関し有意な差が示されました。

すなわち、投与群全体の効果は有意でした。

なお、この例でも、データが正規分布に近いため、一元配置分散分析の結果と同様の結果でした。

まとめ

①母集団の分布に特定の確率分布を仮定しない統計手法です。

②ノンパラメトリック法はデータを順位に変換し推測を行うため、特に外れ値に対して頑健な手法です。

多重比較法：Bonferroni法・Holm法・Tukey法

一元配置分散分析は、複数の群全体における母平均の差を検出するものであるため、どの２群の間に差があるかはわかりません。

このため、医学研究では、一元配置分散分析を用いた群全体での平均の比較と同様、多群の中の２群のペアで母平均を比較することに研究の興味があることが多いです。

この時、検定（例えば２標本t-検定）を複数回行うと、いずれかの検定で第一種の過誤が生じる確率が名目の有意水準（例：両側5%）よりも増大する検定の多重性（multiplicity）の問題が生じます。

そこで、多重比較法（multiple comparison procedure）という多重性の調整法が必要となります。

図のベン図は、検定の多重性を示したものです。

３つの個々の検定（比較）で第一種の過誤が生じる場合をそれぞれ３つの円で表すと、各円の事象が生じる確率は両側α=0.05としても、３つの検定いずれかで第一種の過誤が生じる事象（３つの円の和集合）の確率は0.05よりも増大することがわかります。

多重比較法の用語を以下にまとめます。

上の例では、３つの帰無仮説を検定していますが、検定全体と考える仮説の集合を仮説のfamilyと呼びます。

そして、検定を複数回行う際、仮説のfamilyの中で、誤って1つ以上の帰無仮説を棄却する確率を、Type 1 FWER（family-wise error rate）と呼びます。

そして、多重比較法とは、個々の検定の有意水準を調整して（各検定のαを小さくして）、Type1FWERを両側0.05以下に抑える方法論です。

多重比較法は多くの手法が提案されていますが、ここでは連続型の評価項目Ｙに対して、２標本t-検定を用いる場合の多重比較法に焦点を当てて解説します。

まず、最も単純な方法で適用範囲も広いが検出力が低い（これを保守的conservativeという）手法であるBonferroni法（ボンフェローニ）を紹介します。

次いで、Bonferroniの拡張版であるHolm法（ホルム）を紹介し、最後にTukey法（テューキー）とDunnett法（だネット）を解説します。

Bonferroni法

Bonferroni法は、検定をk回行う場合、下のベン図のように、各検定の有意水準αをα/kと調整する方法です。

例えば、検定を２回行う場合、両側有意水準は0.025であり、３回行う場合、両側有意水準は0.05/3=0.0167となります。

このため、Bonferroni法は検定の数が多くなると検定が有意になりづらくなり、保守的な検定として知られています。

また、上の解説では検定の有意水準を調整する方法を示しましたが、多重比較法では個々の検定の両側有意水準は0.05としてＰ値を調整する（調整済みＰ値と呼ぶ）方法もあります。

Bonferroni法の調整済みＰ値は、

調整済みＰ値＝（無調整Ｐ値）×（検定の回数ｋ）

と計算します。

ただし、Ｐ値は確率であるため、調整済みＰ値は１を超えないものとします。

医学論文では多重比較法を用いる場合、Ｐ値がいずれのものであるか（調整済みまたは無調整）を明記することが重要です。

一元配置分散分析で用いた例題において、例えば４群の中のすべての２群の組（６通り）に対して比較を行い、Bonferroni法を用いて多重性の調整を行ってみましょう。

以下に、SPSSを用いて、上記の各比較に対して、Bonferroni法で調整したＰ値を計算した結果を示します。

SPSSの一元配置分散分析の機能の中の、「その後の検定」により実行できます。

ここで、群変数（group）は、プラセボ群＝０、Ａ薬群＝１、Ｂ薬群＝２、Ｃ薬群＝３で表されています。

SPSSの場合、出力の３列目の有意水準は、調整済みp値であるため、p＜=0.05のとき、Bonferroni法による検定結果は有意であると判定します。

Holm法

Holm法はBonferroni法の拡張版です。

Bonferroni法がすべての検定で事前に決めた等しい有意水準（例えば４回検定を行う場合、両側α＝0.0125）を用いるのに対して、Holm法は個々の検定結果（Ｐ値）に基づき検定の帰無仮説を並べ替え、逐次的に検定の有意水準を変えます。

このため、Holm法は、sequentially rejectiveあるいはstep-down手順と呼ばれる手法に分類されます。

検定の手順を以下に示します。

①無調整Ｐ値が小さい順に帰無仮説を並べ替える

②J番目の帰無仮説を有意水準α/k-j+1 で検定する。ただしkは検定の数

③検定が有意でなくなるまで②を続ける

例えばk=5回の検定を行う場合、下表にj番目の検定の両側有意水準をHolm法とBonferroni法について示しました。

最初の検定では、Holm法の有意水準はBonferroni法のαと等しいですが、２回目以降の検定では有意水準が大きくなるため、Holm法はBonferroni法よりも検出力が高くなります。

また、Holm法の調整済みＰ値は、調整していないP値にj番目の検定のαの分母である（k-j+1）を掛ければよいです。

例えば５回検定を行う場合、１番目は５倍、２番目は４倍、のように計算します。

Bonferroni法の際の例題と同じ６回の検定の多重性をHolm法により調整してみましょう。

検定結果は以下である。Holm法は、Ｐ値で並べ替えた後半の検定では、調整Ｐ値が無調整Ｐ値と同様になるため、検出力が高いことがみてとれます。

ここでは、Holm法では、Ｂ薬とＣ薬の間の差が有意であるが、Bonferroni法では有意でないという結果になっています。

Tukey法

Tukey法（正確にはTukey-Kramer法）は、多群のすべての２群の組の比較に医学的な関心がある場合の多重比較法です。

Bonferroni法のようにすべての検定に対して同じ有意水準を用います。

例えば、ある臨床研究で10個の処置群がある場合、45組の2群のペアの比較すべてに対して多重性を調整するのがTukey法です。

一般にTukey法では比較の数が多くなるため、検定が保守的であることが知られていますが、簡便なBonferroni法と比較すると検出力が高い手法です。

Tukey法は、Type1FWERを名目水準（α=0.05）に抑えるように多重積分を用いて棄却限界値を計算し、Ｐ値を計算していますが、近年の統計ソフトウェアでは標準的に使用できる手法となっています。

なお、Tukey法は、Honestly Significant Difference（HSD）法とも呼ばれることがあります。

関連リンク

土地には値段があるのか

統計学的な共通体験

統計関数を使った行列計算による重回帰分析

統計学における相関関係と因果関係

報道協定（記事の差し止め期間）

IntentiontoTreat（ITT）

ヒトを対象とする研究を実施している臨床研究者の利益相反を防ぐための規則

MedDRA：医薬規制用語集

ブラケット＝バーマン計画

エビデンスに関する情報の収集

1

2

3

4

5

6

ノンパラメトリック法の秘密：Wilcoxonと多重比較法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
ノンパラメトリック法の秘密：Wilcoxonと多重比較法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【多変量解析】
【医療統計解析】