古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】
古典的テスト理論では、テスト得点は真の得点と測定誤差の和として定義される。この理論によると、テストの信頼性は真の得点の分散とテスト得点の分散の比率で表される。テスト得点間の相関は、真の得点間の相関と信頼性の幾何平均の積で表現される。誤差の2乗の平均は誤差分散と呼ばれ、テスト得点の分散は真の得点の分散と誤差分散の和である。信頼性はテスト精度の指標とされ、項目数の増加によって向上する。テスト得点間の相関は信頼性の完全性に依存し、テスト得点間の相関は真の得点間の相関より低くなる可能性がある。この理論は、テストの開発や評価に長年にわたって貢献してきた。

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


 

古典的テスト理論:テスト得点=真の得点+誤差

 

私たちはさまざまなテストを受けていますが、そもそもどのようなテストが誤差の少ないよいテストなのでしょうか。

 

古典的テスト理論とよばれる理論では、テスト得点について、

 

テスト得点=真の得点+測定誤差

 

という簡単な関係式を考えます。

 

つまり、テスト得点というものは常に不確実な測定誤差を含んでおり、テスト得点からその測定誤差を引き去ったものが真の得点であると考えるのです。

 

ここで測定誤差の大きさが評価できれば、そのテストの精度がわかることになります。

 

この測定誤差は、その時々によって、プラスの値もマイナスの値もとるものと考えられます。

 

プラスでもマイナスでもその値が大きければ誤差が大きいことに違いはないので、古典的テスト理論では、誤差の大きさを評価するときに、誤差の2乗に注目します。

 

測定誤差を2乗したものの平均は「誤差分散」とよばれます。

 

一方、テスト得点についても真の得点についても、集団内での個人差があります。

 

その個人差の大きさを分散によって表現しておきましょう。

 

真の得点の高低と測定誤差の大小の間に相関がないという仮定に基づいて、

 

テスト得点の分散(50)=真の得点の分散(30)+誤差分散(20)(カッコ内は例)

 

という簡単な関係式が成り立つことが示されています。

 

信頼性=真の得点の分散/テスト得点の分散

 

ここで、テスト得点の分散が、真の得点の分散と誤差分散とに、どのような割合で分割されているかということ(上の例では50=30+20)が、テストの精度を考えるうえで重要です。

 

実際、テスト得点の分散のほとんどが誤差分散であるならば、テストの結果はほとんど偶然の数字の羅列ということになり、そのようなテストは使い物にならないでしょう。

 

逆に、テスト得点の分散のほとんどが真の得点の分散であれば、それは精度の高いテストということができます。

 

古典的テスト理論においては、テスト得点の分散のうち、真の得点の分散が占める割合のことを、そのテストの信頼性と呼びます。

 

つまり、

 

信頼性=真の得点の分散/テスト得点の分散

 

という関係になります。上の例では信頼性=30/50=0.6となります。

 

古典的テスト理論は、信頼性に関する理論ともよばれるほど、信頼性についてさまざまな知見を提供してくれます。

 

たとえば、項目を増やすことによって信頼性が向上することなどが理論的に示されています。

 

 

テスト得点間の相関=真の得点間の相関×信頼性の幾何平均

 

古典的テスト理論によって導かれた重要な定理に、「相関の希薄化」に関するものがあります。

 

いま2つの異なるテストがあるとき、それらの得点間の相関を知りたいとします。

 

このとき、テスト得点間の相関と、真の得点間の相関と、2つのテストの信頼性の間には、

 

テスト得点間の相関=真の得点間の相関×信頼性の幾何平均

 

という簡単な関係式が成立します。

 

例として、テストA,Bの信頼性がそれぞれ0.6、0.7であり、テストA, Bの真の得点間の相関が0.85であるとしましょう。

 

このとき、実際のデータの得点は誤差を含んでいるために、相関関係が薄まって(弱くなって)、

 

0.85×√0.6×0.7 =0.55

 

まで低下してしまうのです。(ちなみに√0.6×0.7=0.648です)。

 

このように、テスト得点間の相関と真の得点間の相関の間には、

 

テスト得点間の相関≦真の得点間の相関

 

という大小関係があります。

 

つまり、テスト得点間の相関は、テストの信頼性が完全でない程度に応じて、真の得点間の相関より低くなります。

 

このことを相関の希薄化と呼んでいます。

 

なお、最初の関係式からは、

 

テスト得点間の相関(0.55)≦信頼性の幾何平均(0.648)(カッコ内は上の例)

 

という大小関係も導くことができます。

 

つまり、テスト得点間の相関は、用いられたテストの信頼性の幾何平均を超えることができないということ、言い換えれば、それぞれ信頼性の低い2つのテストから高い相関を得ることはできないということです。

 

テストの理論の歴史と発展

 

テストの得点(あるいはより一般的に測定値)の精度などを検討するための統計的理論のことをテスト理論とよんでいます。

 

このうち、項目反応理論が現代的テスト理論とよばれるのに対し、20世紀初頭からの歴史をもち、長い間、テストの開発や評価を支えてきたものが、ここでの「古典的テスト理論」とよばれるものです。

 

 

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】

古典的テスト理論: 得点、誤差、信頼性の全て【ChatGPT統計解析】