テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】
テストの「質」を判断する重要な基準が、テストの「信頼性」と「妥当性」。信頼性の推定方法として、再テスト法、代替テスト法、内的一貫性を調べる方法(クロンバックのα)がある。信頼性は妥当性のための必要条件であり、十分条件ではない


目次  テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】

 

テストの「質」を判断する基準:信頼性と妥当性

 

世の中にはさまざまな「テスト」が氾濫しています。

 

週刊誌などに性格テストと称するものが載っていたり、テレビのバラエティ番組でも簡単な質問で心理がわかるというようなテストが紹介されたりしています。

 

このようなテストは信頼していいのでしょうか。

 

それらは結局何を調べているのでしょうか。

 

そもそも何かを調べていることになるのでしょうか。

 

一方、大学やテスト作成機関がたくさんの専門家とコストを投入して作成しているテストもあります。

 

これについても同じ疑問が出されうるでしょう。

 

これらさまざまなテストの「質」を判断する重要な基準が、テストの「信頼性」と「妥当性」です。

 

信頼性と妥当性を備えていないテスト、あるいはその検討すらなされていないテストは、その結果の利用に十分な注意が必要です。

 

テストの信頼性を測る

 

同じ受験者のテスト得点でも、一回一回いろいろな値をとって一貫しないのが普通です。

 

それはテスト得点には一回一回の測定においてランダムにいろいろな値をとる測定誤差が含まれているからです。

 

テストの信頼性とは、テスト得点に測定誤差が含まれていない程度のことです。

 

テスト得点に測定誤差が含まれているほど、各回のテスト得点は一貫しないから、テストの信頼性はテスト得点の一貫性のことであるということもできます。

 

信頼性の理論的な定義は、テスト得点の分散(たとえば50)に占める真の得点の分散(たとえば30)の割合(0.6)ということになります。

 

しかし、実際には真の得点やその分散を直接求めることはできないので、テストの信頼性を推定するには、特別の工夫が必要になってきます。
信頼性を推定するための代表的な方法と、それぞれの方法の特徴をまとめると以下のようになります。

 

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】

 

再テスト法・代替テスト法・クロンバックのα

 

信頼性の推定方法として、再テスト法、代替テスト法、内的一貫性を調べる方法(クロンバックのα)があります。

 

@再テスト法: 同一のテストを期間をあけて2度実施し、その間の相関を求める方法。時間的安定性という意味での信頼性を評価することができます。

 

A代替テスト法: 類似した内容の一対のテスト(代替テスト)を実施し、その間の相関を求める方法。具体的なテスト項目を超えた一貫性という意味での信頼性を評価することができます。期間をあけて実施すれば時間的安定性もあわせて評価することができます。

 

B内的一貫性を調べる方法: クロンバックのαとよばれる指標を用います。一つのテストを1回実施するだけで信頼性の推定が可能な方法。具体的なテスト項目を超えた一貫性を評価することができますが、時間的安定性を評価することはできません。

 

例えば、同一テストを間をおいて再テストした場合、前後の得点が同様のパターンとなれば(相関係数が高ければ)、再テスト法による信頼性は高いということになります。

 

 

テストの妥当性をチェックする

 

テストの信頼性が高いということは、テスト得点が一貫した値をとるということを意味するだけです。

 

テスト得点が測定目的に合致した(測るべきものをきちんと測っている)意味のあるものであることまで保証するものではありません。

 

テスト得点が測定目的に合致した、意味のあるものである程度はテストの妥当性とよばれています。

 

この定義からから明らかなように、テストの妥当性はテストの信頼性よりも本質的で重要なものです。

 

このテストの妥当性を検証するには、まず、テストが妥当なものであるための必要条件をリストアップするという手続きが必要です。

 

たとえば、職務適正検査が妥当なものであるためには、採用後の職務実績と高い相関を持たなければならないでしょう。

 

また、上司による勤務評定との間にも高い相関があることが期待されます。

 

こうした必要条件をリストアップした後、実際にデータを収集してそれらの条件がどの程度満たされているかをチェックすることになります。

 

職務適正検査の得点と採用後の勤務実績や勤務評定との間の相関係数を計算し、それが十分高い値であれば、テストしての妥当性をサポートする証拠が得られたといってよいでしょう。

 

信頼性と妥当性の関係

 

テストが妥当なものであるための必要条件としては、たとえば、「一回一回の測定結果が変動せず一貫したものであること」のように、信頼性の高さも含まれてくるのが普通です。

 

つまり、テストの信頼性はテストの妥当性のための必要条件です。

 

実際、妥当性はしばしばテスト得点間の相関という形で評価されますが、その相関は、テストの信頼性が低い場合には必然的に低くなります。

 

逆にいえば、テストの妥当性を示す相関が高い値になるためには、テストの信頼性が高くないといけないということです。

 

一方で、テストの信頼性が高くても、テストの内容が測定目的に合致したものでなければ妥当性は高くなりません。

 

したがって、信頼性は妥当性の十分条件ではないということになります。

 

 

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

 

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】

テストの信頼性と妥当性:質を判断する基準|信頼性は妥当性のための必要条件【統計学・統計解析講義基礎】