データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
統計学では、データの特性に応じて算術平均や幾何平均を選択することが重要です。算術平均はデータの合計を個数で割ったもので、最も一般的ですが、極端な値に影響されやすいです。対照的に、幾何平均はデータの積のn乗根であり、対数正規分布のようにデータが乗法的な性質を示す場合に適しています。例えば、成長率を示すデータで算術平均を用いると過大評価する可能性があるため、このような場合幾何平均がより現実的な平均値を提供します。算術平均が全データを等しく扱うのに対し、幾何平均はデータ間の相対的な比率を重視します。したがって、データの分布と特性を考慮して、最適な平均値の計算方法を選ぶ必要があります。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

算術平均（相加平均）：必ずしも最適でない

幾何平均（相乗平均）

対数正規分布では幾何平均を使う

まとめ

ChatGPTに聞いてみた

算術平均（相加平均）：必ずしも最適でない

売り上げ高を調べたら、昨年は一昨年の２倍であったとします。

また、今年は昨年の８倍あったとします。

さて、２年間の平均値は何倍といえるでしょうか。

①算術平均（相加平均）はデータの総和をデータ数で割ったものなので、年平均は（２＋８）÷２＝５倍となる。

②一昨年の２倍で、されにその８倍だから、今年は一昨年の１６倍である。したがって、年平均は、１６÷２＝８倍　となる。

③年平均４倍と考えれば、２年で４×４＝１６倍とちょうどなるので、４倍である。

さて、①の年平均５倍とすると、２年では５×５＝２５倍となります。

また、②の年平均８倍とすると、２年では８×８倍となるでしょう。

どう考えても大きく見積もりすぎです。

そこで、本当は何倍になるかを方程式を立てて考えます。

年平均をX倍とすると、２年後にはXの２乗倍になります。

これが２×８＝１６倍になるので、

Xの２乗＝１６　を計算すればよいことになります。

これを満たすXは４となります。

年平均４倍とすると、２年で４×４＝１６倍となるので納得できます。

平均値にはいくつかの種類があります。

最もよく使われるのは算術平均ですが、必ずしも算出平均だけではありません。

上の①のように、（２＋８）÷２＝５　という計算はまさに算術平均です。相加平均ともいいます。

この場合は、√（２×８）という計算が妥当ということになります。

つまり２つの数を掛け算してその平方根をとるという計算です。

幾何平均（相乗平均）

一般にｎ個の数を掛け算してそのｎ乗根をとって得られた平均を、幾何平均といいます。

相乗平均ともいいます。

先の例では幾何平均を使うべきである、といえます。

対数正規分布では幾何平均を使う

データが、１、１０、１００、１０００のように１０倍単位で激しく変わる分布を、対数正規分布といいます。

たとえば、ある企業で働く人の年収が仮に以下であるとします。

新入社員　１００万円

中堅社員　１０００万円

役員　　　１００００万円

社長　　　１０００００万円

このような分布は、対数正規分布といいます。

対数正規分布の場合、算術平均をとるとおかしなことになります。

上の例で、算術平均をとる、つまり全部足して４で割ると、２億円を超えます。

この企業は平均年収が２億円だ、と公表したら、入社したい社員が殺到するでしょう。

しかし、冷静に考えると算術平均を代表値とするのはよくありません。明らかに、社長の年収が外れ値となっています。

このような場合、幾何平均をとります。

つまり、全部掛け算をしてその４乗根をとります。

計算すると、約3160万円となります。高めではありますが、２億円に比べたら現実により近い値といえるでしょう。

一般に、算術平均≧幾何平均　という関係があります。

つまり幾何平均は算術平均よりも小さい値になります。

また、対数正規分布をとるデータの場合は、幾何平均を平均値とする、というのも覚えておきましょう。

幾何平均は、ExcelではGEOMEANという関数を使うと一発で計算することができます。

まとめ

算術平均は、全てのデータ値を合計して、データの個数で割ることで求められます。

最も一般的で直感的な平均値の算出方法ですが、全てのデータポイントを等しく扱うため、極端な値（外れ値）の影響を大きく受けます。

この特性が、データの分布によっては平均値を不適切にする原因となります。

幾何平均は、全てのデータ値の積のn乗根（nはデータの個数）で求められます。

この平均値は、データが成長率や比率など、乗法的な性質を持つ場合に適しています。特に、データが対数正規分布をしている場合に妥当な代表値となります。

対数正規分布は、データの対数が正規分布をする場合を指し、データが広範囲に渡って変化する（例：1, 10, 100, 1000）場合に見られます。

このような分布のデータに対して算術平均を用いると、非常に大きな値や小さな値の影響を過大に受けるため、データの中心を不正確に表すことになります。

一方で、幾何平均は乗法的な変動を考慮に入れるため、対数正規分布のデータに対してより妥当な中心の尺度を提供します。

例では、年々の売上高の成長を考える際に、算術平均と幾何平均がどのように異なる結果をもたらすかを示しています。

売上高が一昨年の2倍、昨年の8倍となった場合、算術平均で計算すると実際の成長率を過大評価します。

これに対し、幾何平均を用いると、実際の全体の成長率を正確に反映した平均成長率を求めることができます。

統計学では、データの種類や分布に応じて最も適切な平均値の算出方法を選択することが重要です。

特に、対数正規分布のようにデータが乗法的な性質を持つ場合、幾何平均が算術平均より適切な選択肢となります。

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
算術平均と幾何平均の使い分けについて解説してください。
#制約条件：
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

算術平均と幾何平均は、データの平均を出す方法ですが、使い分けが大事です。算術平均は、一般的によく使われる平均で、全ての数を足して数の個数で割ります。例えば、テストの点数の平均を出すときなどに使います。この方法は、すべての値が同じ重要性を持つときに適しています。一方、幾何平均は、比率やパーセンテージの平均を出すときに使います。全ての数を掛け合わせて、数の個数のルートを取ります。例えば、投資の平均的な成長率を計算するときなどに使われます。この方法は、時間を通じて成長や減少するデータに適しています。つまり、普通に数を平均したいときは算術平均、成長率や変化率の平均を出したいときは幾何平均を使うと良いでしょう。それぞれの特性を理解して、適切に使い分けることが大切です。

関連リンク

臨床研究における倫理的配慮の歴史【統計解析講義応用】

研究倫理網領と規制【統計解析講義応用】

パス解析の医療モデルと心理社会学的モデル【多変量解析】

経費または予算の最適化をする【ビジネス統計解析】

1

2

3

4

5

6

データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

データ特性別！算術平均VS幾何平均の選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

算術平均（相加平均）：必ずしも最適でない

幾何平均（相乗平均）

対数正規分布では幾何平均を使う

まとめ

ChatGPTに聞いてみた

プロンプト

ChatGPTの回答

メニュー

サブメニュー

最新記事