打ち切り|【統計学・統計解析講義応用】
打ち切りとは
データが観測されるための条件があり、その条件を満たすものは実際の観測地が得られますが、条件を満たさないものはその個数のみが分かるとき、打ち切りといいます。
打ち切りの特徴は打ち切られたデータの個数が分かる点であり、個数も分からないとくはトランケーションといいます。
打ち切られたデータの個数は案外大きな情報で、トランケーションと同じに扱ってはいけません。
打ち切りは、欠測メカニズムの観点からは無視できない欠測ですので、タイプTあるいはタイプUの打ち切りといった打ち切りのメカニズムを反映した解析をしなければなりません。
タイプTの打ち切り
寿命試験や生存時間解析では、研究期間があらかじめ定められていることが多いです。
研究期間内の寿命データはその値が得られますが、研究終了時点で生存している個体はその寿命が観測されないという意味で打ち切りとなります(生存している個体数が分かる点が重要です)。
これをタイプTの打ち切りもしくは時間打ち切り(time censoring)といいます。
タイプTの打ち切りでは、観測される個体数が確率的な変動をします。
打ち切り時点は個体ごとに異なることもあります。
たとえば、ある時点でいっせいに観測を開始する場合は打ち切り時刻は全て同じですが、研究期間内での観測開始時刻が異なる場合には、打ち切り時刻はその個体の観測開始時から研究期間終了までとなります。
タイプUの打ち切り
個体数n個の寿命試験を考えます。
全ての個体の寿命を観測するには長い時間を要するため、観測を始めてからk番目の個体の寿命が観測された時点で試験を中止します。
このとき、実際に観測される寿命データ以外の残りのn−k個は打ち切りとなります。
これをタイプUの打ち切りもしくは個数打ち切りといいます。
タイプTの打ち切りでは、観測時間は既知で観測個数が確率的な変動をするのに対し、タイプUの打ち切りでは、観測個数は決められているが観測時間が確率的な変動をします(実際に観測してみないといつ終わるか分からない)。
関連記事