外れ値の謎解き:統計よりビジネス知識【ChatGPT統計解析】
品質管理では、平均から2σや3σ以上離れたデータを外れ値と判断するが、ビジネス現場のデータは正規分布に従わず、外れ値の判定にはビジネス知識が必要。たとえば、年収データの分析では、富裕層と低所得者では外れ値の定義が異なる。統計学よりもビジネス知識が重要。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
外れ値の判定方法
品質管理の分野で利用されている統計学では、平均値から2シグマや3シグマ以上離れているデータを外れ値として判定します。
正規分布に従っているデータであれば、この方法は妥当です。
しかし、実際のビジネスの現場では、記録されているデータに正規分布に従うものはほとんどないのが現状です。
ビジネス統計で外れ値を判定するためには、ビジネス業務の知識を活用する必要があります。
ビジネスの観点でデータの意味を考えて、分析目的に合わないデータを外れ値とします。
例えば、ひと口に年収のデータを分析すると言っても、低所得者の年収を分析するのと、富裕層の年収を分析するのとでは、必要なデータは全く違います。
前者の場合は年収数千万円のデータは外れ値になりますし、後者の場合は年収数十万円のデータが外れ値になります。
ビジネス統計で外れ値を判定するためには、統計学の知識よりもビジネス業務の知識の方が大事といえます。
関連記事