標本の不思議: 統計学で見るデータの家族【ChatGPT統計解析】
日本語での「標本」とは通常、個々の植物や昆虫など具体的な対象を指します。しかし、統計学では「標本」はデータの集合体を意味し、英語の「sample」が同様の集合概念を持つためです。この集合の概念は、「家族」や「family」のように、複数の要素から成る集まりを示す言葉と似ています。「標本が大きい」とはデータ数が多いことを指し、これは日本語の一般的な使い方と異なり、統計学特有の表現です。統計学では、母集団から標本を抽出し、その特性を推定しますが、無作為抽出法が理想とされるものの、実際はその妥当性を確認する必要があります。標本から母集団の特性を推定するには、選抜確率を知る必要があり、標本を用いた統計量や推定量がこの目的で利用されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学でいう標本
ふつう、日本語で「標本」というと、植物や昆虫の標本のように、標本となっている植物や昆虫の1つひとつをさして使われます。
しかし、統計学でいう「標本」は、標本としてとり出されたデータの「集まり」を指しています。
これは、「標本」という言葉のもとになった、英語の「sample」という言葉がそういう使い方をするためです。
この「集まりを表す名詞」という感覚は、日本語の「家族」英語の「family」という言葉を考えると、わかりやすいと思います。
「家族」は人の集まりを指す言葉であり、日本語では「大家族」英語では「large family」と、同じ表現をします。
「家族が多い」というと、家族を構成する人の数が多いのではなく、いくつも家族があることを意味します。
統計学でいう「標本」も同じで、構成するデータの数が多いことは「標本が大きい」といいます。
とはいうものの、統計学の本や講義では、「標本」という言葉の使い方がふつうの日本語と違うので、どうももどかしい印象があります。
標本の大きさを指して「サンプル数」といっている間違った表現も、実際にはよく見かけます。
これはもう、明治時代に西洋から輸入された学問だからとあきらめるしかありません。
標本から算出した統計量と母数の推定に用いる推定量
母集団を完全に調査するのは不可能な場合、標本から母集団の特性を推定する必要があります。
この標本抽出には作為抽出法と無作為抽出法の2つの抽出方法があります。
統計学では無作為抽出法だけを議論するわけではありません。
無作為抽出法では、母集団のどの要素も等しい確率で標本に選ぶことが必要です。
しかし、実際に母集団がわかっていない状態で、抽出した方法が無作為であることを保証できません。
そのため、理想的には無作為抽出を仮定するものの、抽出方法の妥当性を確認する必要があり、統計学の対象を無作為抽出に限定することは不可能です。
また統計的推測(標本から母集団の性質を推定する)を行うには、各標本に対し、それを選抜する確率を知る必要があります。
このために様々な標本抽出法が開発されています。
例えば異なる標本を選抜する確率がすべて同じならば、その抽出法を単純ランダム(無作為)抽出といいます。
日本工業規格では、標本(sample)を一つ以上の抽出単位からなる母集団の部分集合と定義しています。
母集団を表現する数値を母数というのに対し、標本を表現する数値を統計量といいます。
統計量は標本から算出できる数値です。
また統計量で特に母数を推定するために用いるものを推定量といいます。
関連リンク