データ推測での確率と標本の力:区間推定【ChatGPT統計解析】

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】
確率を利用して、無作為抽出された標本を使うことで、データの一部を調査することで全体の状況を推測できる。例えば、ノルウェーの身長を知りたい場合、全員を調べる必要はなく、標本を使って推測できる。ただし、標本の選び方によっては偏った結果になる可能性があるため、信頼性を考慮し、区間推定を行うことが重要。

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  データ推測での確率と標本の力:区間推定【ChatGPT統計解析】

 

確率の統計的推測

 

確率を推定する方法を応用すると、データの一部のみを調べてデータ全体の様子を知る「統計的推測」を行うことができます。

 

だいぶ前の話ですが、1994年にノルウェーで開かれたリレハンメル・オリンピックの開会式の放送で、アナウンサーが「ノルウェー人は背が高く、平均身長は男性179cm、女性170cmだそうです」という話をしていました。それは、どうやって調べたのでしょうか。

 

ノルウェー人全員に、一人ひとりの身長計に乗ってもらって調べれば、確実に答えがわかるでしょう。

 

このような調査を全数調査といい、その代表的なものが、5年に1回行われる国勢調査です。

 

しかし、国勢調査は、国の莫大な予算と労力、それに「統計法」による強制力を用いて行われている調査です。

 

平均身長を知るだけのために、そのような予算と労力を使うことは、現実にはできません。

 

そこで行われるのが、「ノルウェー人の一部を調べて、ノルウェー人全体を調べたときの結果を推測する」という方法です。

 

このとき、調査対象に選ばれた人を標本、標本を選んで調査する方法を標本調査といい、このようなデータの一部を調べて全体を推測する統計学の手法を統計的推測といいます。

 

このようなデータは「値が大小さまざまであり、また、データ全体を調べることはできない」という性質をもっています。

 

このような「大小さまざまな値をもつデータ全体」を、データの分布といいます。

 

分布のうちの一部のデータだけを調べて、分布全体を推測することを可能にするために、じつは「くじびき」と同じ原理が用いられています。

 

ノルウェー人の身長の分布を、横軸で身長の高低を表し、ある範囲の身長の人の割合を縦で示したヒストグラムで表します。

 

この分布から、標本を公正なくじびきで選んだとしましょう。

 

公正なくじびきとは、どの人も同じ確率で選ばれるようなくじびきです。

 

このような選び方を無作為抽出(ランダムサンプリング)といいます。

 

このような選び方をするとき、身長の極端に高い人たちだけが選ばれてしまうことがないとはいえません。

 

そうやって選ばれた標本だけを見れば、ノルウェー人はとてつもなく背の高い人たちと誤解してしまうかもしれません。

 

しかし、身長の極端に高い人の割合は小さいので、偏った選ばれ方をする確率も小さいといえます。

 

たいていは、並の人は多く、極端な人は少なく選ばれます。

 

このときは、標本だけの平均を計算すれば、それはノルウェー人全体の平均とほぼ同じになるはずです。

 

つまり、このように無作為抽出された標本を用いれば、ノルウェー人全体の平均身長は、ノルウェー人全員を調べなくてもたいてい、ほぼ正確にわかります。

 

これが、統計的推測の原理です。

 

 

無作為抽出された標本で区間推定が可能

 

ここで、平均身長がたいてい、ほぼ正確にわかる、と述べました。

 

無作為抽出で選ばれたのはあくまで一部の人ですから、標本として選ばれた人の平均とノルウェー人全員の平均とは、正確には同じなのではなく、ほぼ同じであるのはしかたありません。

 

一方、たいていの意味には注意する必要があります。

 

偏った標本が選ばれてしまう確率は、たしかに小さいです。

 

しかし、ノルウェー人全体の身長の分布(ヒストグラム)は実際には知らないわけですから、もし運悪く偏った標本が選ばれていても、その標本が偏っているのかどうかを知るすべはありません。

 

選ばれた標本から計算された平均を、ノルウェー人の平均身長にほぼ等しいと、信じるしかないのです。

 

つまり、平均がたいてい正確にわかる、というのは間違った結果を信じて大失敗することもある、ということを意味しています。

 

したがって、統計的推測を行う際には、大失敗の確率を計算しておく必要があります。

 

確率がわかっていれば、このような統計的推測を何度も行えば、そのうちどのくらいの割合で失敗するかも想定できますから、それに対する備えをすることができます。

 

統計的推測の方法のひとつである区間推定では、ノルウェー人全体の平均身長は、179cm-182cmの間にあると推測します。

 

この統計的推測が当たっている確率は95%である(95%信頼区間)、という答え方をします。

 

身長の幅が「ほぼ」に相当し、当たっている確率が「たいてい」に相当します。

 

これが区間推定の基本的考え方です。

 

 

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】

データ推測での確率と標本の力:区間推定【ChatGPT統計解析】