信頼性&妥当性で測るテストの真価!【ChatGPT統計解析】
テストの「質」を判断するためには、「信頼性」と「妥当性」が重要な基準です。信頼性はテスト得点の一貫性を意味し、再テスト法、代替テスト法、クロンバックのαを用いて推定されます。これは、テスト結果が一貫しているかどうかを測るもので、テストが時間を越えて安定しているか、異なる項目で一貫性があるかを評価します。一方、妥当性はテスト得点が測定目的に適合しているかどうかを指し、テストが本当に意図したものを測っているかを示します。信頼性は妥当性の必要条件であり、信頼性が高いテストでなければ妥当性を確認することはできませんが、信頼性だけでは妥当性が高いとは限りません。したがって、テストの質を高めるには、信頼性と妥当性の両方を考慮する必要があります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 信頼性&妥当性で測るテストの真価!【ChatGPT統計解析】
テストの「質」を判断する基準:信頼性と妥当性
世の中にはさまざまな「テスト」が氾濫しています。
週刊誌などに性格テストと称するものが載っていたり、テレビのバラエティ番組でも簡単な質問で心理がわかるというようなテストが紹介されたりしています。
このようなテストは信頼していいのでしょうか。
それらは結局何を調べているのでしょうか。
そもそも何かを調べていることになるのでしょうか。
一方、大学やテスト作成機関がたくさんの専門家とコストを投入して作成しているテストもあります。
これについても同じ疑問が出されうるでしょう。
これらさまざまなテストの「質」を判断する重要な基準が、テストの「信頼性」と「妥当性」です。
信頼性と妥当性を備えていないテスト、あるいはその検討すらなされていないテストは、その結果の利用に十分な注意が必要です。
テストの信頼性を測る
同じ受験者のテスト得点でも、一回一回いろいろな値をとって一貫しないのが普通です。
それはテスト得点には一回一回の測定においてランダムにいろいろな値をとる測定誤差が含まれているからです。
テストの信頼性とは、テスト得点に測定誤差が含まれていない程度のことです。
テスト得点に測定誤差が含まれているほど、各回のテスト得点は一貫しないから、テストの信頼性はテスト得点の一貫性のことであるということもできます。
信頼性の理論的な定義は、テスト得点の分散(たとえば50)に占める真の得点の分散(たとえば30)の割合(0.6)ということになります。
しかし、実際には真の得点やその分散を直接求めることはできないので、テストの信頼性を推定するには、特別の工夫が必要になってきます。
信頼性を推定するための代表的な方法と、それぞれの方法の特徴をまとめると以下のようになります。
再テスト法・代替テスト法・クロンバックのα
信頼性の推定方法として、再テスト法、代替テスト法、内的一貫性を調べる方法(クロンバックのα)があります。
@再テスト法: 同一のテストを期間をあけて2度実施し、その間の相関を求める方法。時間的安定性という意味での信頼性を評価することができます。
A代替テスト法: 類似した内容の一対のテスト(代替テスト)を実施し、その間の相関を求める方法。具体的なテスト項目を超えた一貫性という意味での信頼性を評価することができます。期間をあけて実施すれば時間的安定性もあわせて評価することができます。
B内的一貫性を調べる方法: クロンバックのαとよばれる指標を用います。一つのテストを1回実施するだけで信頼性の推定が可能な方法。具体的なテスト項目を超えた一貫性を評価することができますが、時間的安定性を評価することはできません。
例えば、同一テストを間をおいて再テストした場合、前後の得点が同様のパターンとなれば(相関係数が高ければ)、再テスト法による信頼性は高いということになります。
テストの妥当性をチェックする
テストの信頼性が高いということは、テスト得点が一貫した値をとるということを意味するだけです。
テスト得点が測定目的に合致した(測るべきものをきちんと測っている)意味のあるものであることまで保証するものではありません。
テスト得点が測定目的に合致した、意味のあるものである程度はテストの妥当性とよばれています。
この定義からから明らかなように、テストの妥当性はテストの信頼性よりも本質的で重要なものです。
このテストの妥当性を検証するには、まず、テストが妥当なものであるための必要条件をリストアップするという手続きが必要です。
たとえば、職務適正検査が妥当なものであるためには、採用後の職務実績と高い相関を持たなければならないでしょう。
また、上司による勤務評定との間にも高い相関があることが期待されます。
こうした必要条件をリストアップした後、実際にデータを収集してそれらの条件がどの程度満たされているかをチェックすることになります。
職務適正検査の得点と採用後の勤務実績や勤務評定との間の相関係数を計算し、それが十分高い値であれば、テストしての妥当性をサポートする証拠が得られたといってよいでしょう。
信頼性と妥当性の関係
テストが妥当なものであるための必要条件としては、たとえば、「一回一回の測定結果が変動せず一貫したものであること」のように、信頼性の高さも含まれてくるのが普通です。
つまり、テストの信頼性はテストの妥当性のための必要条件です。
実際、妥当性はしばしばテスト得点間の相関という形で評価されますが、その相関は、テストの信頼性が低い場合には必然的に低くなります。
逆にいえば、テストの妥当性を示す相関が高い値になるためには、テストの信頼性が高くないといけないということです。
一方で、テストの信頼性が高くても、テストの内容が測定目的に合致したものでなければ妥当性は高くなりません。
したがって、信頼性は妥当性の十分条件ではないということになります。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
統計学における信頼性と妥当性について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
統計学で「信頼性」とは、同じテストや測定を繰り返した時に、結果が安定しているかどうかを示します。たとえば、毎日同じ時間に体温を測るとします。体温計が正確であれば、毎日ほぼ同じ温度を示すはずです。これが高い信頼性を意味します。もし体温計の示す温度が日によって大きく異なるなら、その体温計は信頼性が低いと言えます。一方で、「妥当性」とは、そのテストや測定が本当に測りたいものを測っているかを示します。体温計の例で言うと、体温計が実際に体温を測っているかどうかが問題になります。もし体温計が室温を測ってしまっていたら、体温を測るという目的には妥当していません。つまり、信頼性は「結果の一貫性」を、妥当性は「測定の正確さ」をそれぞれ表しています。両方が高いテストや測定方法は、信頼できる正確な結果を提供することができます。