信頼性の統計学|【統計学・統計解析講義基礎】
信頼性の統計学
信頼性(reliability)と妥当性(validity)
データに数を割り当てたり分類する方法はいくつもあるが、それらの有用性は同じではない。
測定方法(例えば調査やテストなど)を評価するのに使われている標準的な指標は、信頼性(reliability)と妥当性(validity)の2つである。
理想を言えば、すべての方法が信頼性と妥当性を備えるべきだ。
信頼性
信頼性とは、測定結果の一致度、反復可能性を表す指標である。
例えば、同じ人物に同じテストを二回行ったとして、二度とも似たような値が出るだろうか。
社会的相互作用の質を測るために作られた評価方法を使えるように3人を訓練し、その後彼ら一人ひとりに人々がグループで触れ合っている同じ映像を観てもらう。
そこで示されている社会的相互作用の質を評価するよう頼んだら、彼らの評価は似たものになるだろうか。
もし測定者に同じ物体の重さを同じ計測機器で10回計ってもらったら、それぞれの測定結果は似たような値になるだろうか。
どの場合でも、答えがYESならば、そのテスト、尺度や評価者は信頼性が高いと言える。
信頼性の理論の多くは、教育心理学の分野で発展した。
そのため、信頼性指標は、多くの場合、テストの信頼性評価の観点から記述される。
しかし、信頼性の考察は、テストに限定されるものではない。
同じ概念が投票やアンケートや行動調査などをはじめとした他の多くの測定方法にも適用される。
信頼性の測定方法の多くは、相関係数(correlation coefficient、単に相関とも呼ばれる)を求める。
統計を始めたばかりであれば信頼性と妥当性の論理に集中し、相関係数の概念を習得するまでそれらの評価方法の詳細は後回しにするとよい。
信頼性の測定には次の3つの主要なアプローチがある。
それぞれ特定の状況で有用であり、それぞれに長所と短所がある。
@複数度数の信頼性
A複数形態の信頼性
B内部整合性信頼性
複数度数(multiple occasions)の信頼性は、試験再試験信頼性(test-retest reliability)とも呼ばれ、テストまたは測定を繰り返して値がどれくらいに近いかを表す。
そのため、経時的安定性(temporal stability)指標とも呼ばれている。
例えば、インタビュー映像に基づいて患者の心理評価を行う場合、同じ人なら2週間間隔で行い結果を比較する。
このタイプの信頼性が意味をなすためには、測定される量が変化しないようにしなければならない。
そのため心理状態が2週間で変化している可能性のある患者の直接のインタビューではなく、同じインタビュー映像を使用する。
複数度数の信頼性は、気分の状態や測定されている質や量が2つの測定の間で変化する可能性がある不安定なもの(例えば被験者の学生が積極的に勉強している科目についての知識など)に対応するには、適切な尺度ではない。
複数度数の信頼性を評価するためには、一般的には検査ごとの得点の相関係数(これは安定度係数と呼ばれる)を計算する。
複数形態(multiple-forms)の信頼性(または平行形態(parallel-forms)の信頼性)は異なるバージョンのテストやアンケートが同じ対象を測定する中で、どれくらい近い結果を示すかを表す。
複数形態の信頼性の一般的なものは、折半法である。
その中では、均質であると信じられている項目が多数用意されていて、半分の項目はAフォームに、もう半分はBフォームに割り当てられている。
2つ(またはそれ以上)のフォームのテストが同じ人々に同じ機会に行われる場合、各フォームから受け取った得点の相関が、複数形態信頼性の推定値である。
この相関はときに、等価係数と呼ばれている。
複数形態信頼性は複数の版が存在するテストの標準化では特に重要である。
例えば、異なるフォームのSAT (Scholastic Aptitude Test : 米国で大学進学希望学生の間で学力測定に使用される)は、獲得した得点がフォームに関わらず同等であるように構成されている。
内部整合性(internal consistency)信頼性は、逆具(テストや調査など)を構成している項目がどれだけ正確に同じ構成概念を反映しているかを表す。
別の言い方をすると、内部整合性信頼性は、道具を構成する各項目が同じ事柄を測定していることを評価している。
複数形態や複数度数の信頼性と述い内部整合性信頼性は、単一の機会に単一の道具で評価できる。
内部整合性信頼性は複数度数や複数形態信頼性よりも測定が複雑であり、いくつかの方法がそれを評価するために開発されている。
これらの評価技法は、測定するテスト上の各項目ごとの相関である項目間相関に主に依存する。
相関か高いなら、それは各項目が同じことを測定しており、内部整合性信頼性を測定するために使用されるさまざまな統計がすべて高くなる証拠として解釈される。
項目間の相関が低かったり矛盾している場合、内部整合性信頼性は低くなり、これは各項目が同じことを測定していないことの証拠として解釈される。
2つの単純な内部整合性の測定方法、平均項目間相関と平均項目全相関が、同じような難易度で同じトピックをカバーする複数の項目で構成され、後に統合して採点されるテストに対して最も有効である。
平均項目間相関を計算するためには、項目の各対間の相関を求め、これらすべての相関の平均を取る。
平均項目の全相関を計算するためには、スケール上の個別の各項目に得点を加算して合計得点を作成し、各項目の合計得点の相関を計算する。
平均項目全相関は、個別項目全相関の平均である。
前述の折半法による信頼性は、内部整合性を決定する別の方法でもある。
この方法は、項目が真に均一でない場合、異なる分割が異なる難易度のフォームを作り、信頼性係数は、フォームの各対ごとに異なるという欠点を有している。
この難点を克服する方法はクロンバックのアルファ(またはアルファ係数)であり、これはすべての起こり得る折半法推定値の平均に相当する。
関連リンク