信頼性と妥当性:測定方法の基本指標と評価【ChatGPT統計解析】
信頼性(reliability)と妥当性(validity)は、測定方法を評価するための標準的な指標です。信頼性は、測定が一貫して同じ結果を出す能力を示します。例えば、同じテストを繰り返し実施した際に同様の結果が得られるか、複数の評価者が同じ結果を出すかが評価されます。信頼性の評価方法には、複数回の機会にわたる信頼性(試験再試験信頼性)、複数形式の信頼性(平行形式信頼性)、内部整合性信頼性があります。複数回の機会にわたる信頼性は、時間を通じた安定性を測るもので、測定対象が変わらないことが重要です。複数形式の信頼性は、異なるバージョンのテストが同様に測定できるかを評価し、内部整合性信頼性は、テスト内の各項目が同一の概念を測定しているかを示します。内部整合性を測るには、平均項目間相関やクロンバックのアルファ係数などの方法があります。これらの評価方法により、測定方法の信頼性と妥当性が確認されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
信頼性の統計学
信頼性(reliability)と妥当性(validity)
データに数を割り当てたり分類する方法はいくつもあるが、それらの有用性は同じではない。
測定方法(例えば調査やテストなど)を評価するのに使われている標準的な指標は、信頼性(reliability)と妥当性(validity)の2つである。
理想を言えば、すべての方法が信頼性と妥当性を備えるべきだ。
信頼性
信頼性は、測定がどれだけ一貫して同じ結果を出すかを示す指標です。
たとえば、あるテストを同一人物が2回受けた場合、結果は類似しているでしょうか?
また、3人の評価者が同じ映像を見て社会的な交流の質を評価した場合、彼らの評価は近いものになるでしょうか?
同じ計測器を使用して物体の重さを10回測定した場合、その結果は似ているでしょうか?
これらの質問に対する答えが肯定的であれば、そのテストや評価方法は信頼性があるとみなされます。
信頼性の概念は教育心理学で特に発展しましたが、それに限らず、選挙投票、アンケート、行動調査など幅広い測定活動にも当てはまります。
信頼性を測る方法の一つに、相関係数を使うものがあります。
この係数は、測定の一貫性を数値化する手段です。
統計学を学び始めた人は、信頼性と妥当性の基本概念に焦点を当て、相関係数については基本的な理解を深めるのが良いでしょう。
信頼性を評価するには主に3つの方法があり、それぞれに適した状況と利点、欠点があります。
@複数度数の信頼性
A複数形態の信頼性
B内部整合性信頼性
複数回の機会にわたる信頼性、または試験再試験信頼性とは、テストや測定を何度も実施した際に結果がどれだけ似ているかを示します。
これは時間を通じての安定性を測る指標としても知られています。
例えば、ある心理評価を2週間の間隔で同一患者に対して実施し、その結果を比較する場合がこれに該当します。
この信頼性を確保するためには、測定対象が測定期間中に変わらないことが重要です。
そのため、2週間で心理状態が変わりうる患者の場合、同じインタビュー映像を用いるのが適切です。
複数回の機会にわたる信頼性は、測定対象の状態や性質が測定間で変わる可能性がある場合(例: 学生の学習進度)には適さない場合があります。
この種の信頼性を評価するには、通常、各テストのスコア間の相関係数(安定度係数とも呼ばれる)を計算します。
一方、複数形式の信頼性、または平行形式の信頼性は、異なるバージョンのテストやアンケートが同一の対象をどれだけ同様に測定できるかを示します。
これの一般的な方法に折半法があります。
これは、一連の項目が準備され、半分がAフォーム、もう半分がBフォームに分けられる方法です。
2つ(またはそれ以上)の異なるフォームを同じ人々に同時に実施し、受け取ったスコアの相関を見ることで、複数形式の信頼性を推定します。
この相関は時に等価係数と称されます。
複数形態信頼性は、テストが複数のバージョンを持つ場合に、それらの標準化において非常に重要です。
たとえば、SAT(Scholastic Aptitude Test)のような異なる形式のテストでは、どの形式を受けても学生が得るスコアが公平に比較可能であるように設計されています。
このようなテストは、異なるバージョンでも同等の難易度と評価基準を持つ必要があります。これにより、学生の能力を正確に評価し、公平な比較を可能にします。
内部整合性信頼性は、テストや調査などが含む各質問項目が、どれだけ一貫して同一の概念や能力を測定しているかを示します。
この信頼性は、テスト内の各項目が同じ内容を測定することを確かめることによって、そのテストや調査の品質を評価するものです。
内部整合性が高いテストは、すべての項目が同一の概念に密接に関連していることを示し、結果として信頼性の高い測定が可能になります。
複数形態や複数度数の信頼性とは異なり、内部整合性信頼性は単一の測定機会でテスト全体を通して評価できます。
これを測定するために開発された方法は、テスト上の各項目間での相関を基にしています。
項目間で相関が高い場合、それはテストが一貫して同一の概念を測定している証拠となり、さまざまな統計技法によって内部整合性が高いと判断されます。
一方で、項目間の相関が低い、または矛盾している場合は、テストの内部整合性が低いことを示し、各項目が同じ概念を測定していない可能性があります。
内部整合性を測る簡単な方法には、平均項目間相関と平均項目全相関があります。
これらの方法は、テストが似たトピックや難易度の項目で構成され、その後で統合して採点される場合に特に有効です。
平均項目間相関は、各項目のペア間の相関の平均を計算することで求められます。
平均項目全相関は、テストの全得点に対する各項目の得点の相関の平均を計算することで求められます。
内部整合性の別の測定方法として、折半法がありますが、これは項目の一貫性を確認するためのもう一つのアプローチを提供します。
ただし、項目が均一でない場合、異なる分割方法によって信頼性が異なることがあります。
この問題を解決するためにクロンバックのアルファ(アルファ係数)が用いられます。
これは、すべての可能な折半法の推定値の平均として機能し、テストの一貫性と信頼性の強力な指標となります。
クロンバックのアルファは、すべての起こり得る折半法推定値の平均に相当します。
関連リンク