項目分析!テストの内的一貫性を探る【ChatGPT統計解析】
項目分析は、テスト項目が効果的か統計的に評価する方法で、テスト得点との相関分析、注意係数、項目反応理論を含む。信頼性と妥当性を高めるためには、テスト項目の選択と評価が重要であり、基本的には受験者を成績によって上位群と下位群に分け、各選択肢の選択率を分析する。選択肢が上位群と下位群を適切に識別できるかを調べ、必要に応じて修正を行う。また、相関係数や因子分析を用いてテストの内的一貫性を評価し、項目反応理論に基づく分析を通じて識別力の低い項目を特定し、テストの質を向上させる。このプロセスは、テストが広範な能力を正確に測定できるようにするために不可欠。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 項目分析!テストの内的一貫性を探る【ChatGPT統計解析】
項目分析:テスト項目の統計的分析
十分な信頼性(一貫していること)と妥当性(目的に合致していること)をもったよいテストを作成するためには、よいテスト項目を用意することが必要であることは言うまでもありません。
しかし、ある項目がよい項目かどうかは内容を見ただけではわかりません。
実際に予備的に実施してみて、その項目がうまく機能しているかどうかを統計的に調べる必要があります。
そうした検討のための統計的分析を「項目分析」とよびます。
最も基本的な項目分析は、受験者がそれぞれの項目に対してどのように回答したか、その分布を調べることです。
そのためには、まず、テスト全体での成績を用いて受験者を上位群と下位群に分け、それぞれの群がどの選択肢をどの割合で選択したかを見るやり方が一般的です。
選択肢がうまく機能しているか
例えば、ある項目の各選択肢の選択率(%)が表1のようになったとします。
この表から、正答の選択肢D(*が付けてある)の選択率は上位群のほうが下位群より高く、逆に誤答の選択肢の選択率はすべて下位群のほうが上位群より高いことがわかります。
項目全体として、上位群と下位群を識別する(見分ける)機能がうまく発揮されている例です。
これに対し、表2の場合は、正答の選択肢Dの選択率に上位群・下位群の差がなく、誤答の選択肢のうちAとCで上位群の選択率のほうが高くなっています。
また、選択肢Bは誰も選択しておらず、選択肢としての役割を果たしていません。
それぞれの選択肢の内容や表現を検討しなおして、上位群と下位群をより効果的に識別できるように修正を試みる必要があります。
相関係数・注意係数・因子分析
項目分析では、上記のような基本的な分析のほか、さまざまな統計的方法が利用されています。
たとえばテスト全体での成績が高い受験者ほど各項目に正答しているかどうかを評価するには、各項目の得点とテスト得点との間の相関係数が利用できます。
項目の注意係数も、この相関係数と同じ目的で利用することができます。
ややレベルの高い方法ですが、項目得点の間の相関係数に因子分析を適用すれば、項目が全体として1つだけの「因子」(能力)を測定しているといえるかどうか、その傾向に従わない項目はどれか、という観点から、項目を選択することができます。
この過程で、もしテスト全体として多因子構造を示すことが明らかになれば、それぞれの因子を測定するテスト(下位テスト)を構成することもできます。
テスト得点との相関の高い項目、あるいは1つの因子を反映する程度の高い項目を選ぶことによって、テスト全体としての内的一貫性を高くすることができ、その意味での信頼性を高くすることができます。
項目反応理論による項目分析
テスト得点と項目得点との相関係数や、単純な項目正答率などは、受験者集団によって違ってきますが、最近の「項目反応理論」における識別力と困難度の指標は、受験者集団に依存しない、項目全体の特性を表すものです。
また、そのため、これらの項目特性が知られていれば、それらの項目をどのように組み合わせてテストを構成しても、具体的な項目セットの違いに関係なく、互いに比較可能な形で成績を評価することができます。
項目反応理論を利用した項目分析では、識別力の低い項目について、それを除去したり内容を修正したりすることが主な目的となっています。
項目困難度については、難しいものからやさしいものまで幅広く残しておいて、広範囲の測定が可能な項目プールをまず構築します。
そのうえで、テストの目的に応じて、たとえば能力の高い受験者の間の比較を正確に行いたいのであれば、困難度の高い項目によってテストを構成していくことになります。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
項目反応理論による項目分析について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
項目反応理論(IRT)による項目分析は、テストの質問(項目)がどれだけ良いかを調べる方法です。この理論を使うと、質問ごとに、その質問に答えられる人の能力がどのくらいであれば良い答えが出せるか(難しさ)、質問が能力の違いをどのくらいよく表しているか(識別力)、そして答えやすさが一定の範囲で変わるか(当て推量)を数値で知ることができます。例えば、数学のテストで「この質問に正しく答えるには、どのくらい数学が得意でないといけないか?」を難しさで分析し、「この質問は、数学が得意な人とそうでない人をどのくらい上手に分けられるか?」を識別力で評価します。さらに、「全くわからなくても当てずっぽうで正解する確率はどれくらいか?」も見ます。これらの情報を使って、テストをより公平で正確に、そして有用にするための改善を行います。つまり、IRTによる項目分析は、テストが本当に測りたい能力を測れているかを科学的に分析し、質の高いテスト作りに役立てる方法です。