図で解き明かす統計学の世界:ビジュアルデータの力【ChatGPT統計解析】
統計学では、データや統計量を点、線、その集まりとして平面上に表現した「図」と呼ぶ方法を指します。これには棒グラフ、円グラフ、折れ線グラフ、レーダーチャート、箱ひげ図、幹葉表示、ヒストグラム、散布図、統計地図などが含まれます。図の使用は、データに含まれる情報を明らかにし、統計的方法としては欠かせない要素です。技術の進歩により図の作成は容易になり、さらに高品質で多様な表現が可能になっていますが、視覚化による誤解を招く危険性も高まっています。基礎的なグラフから高度な表示法まで、さまざまな図があり、これらは統計解析の重要な部分を占めています。地域統計における統計地図や数理統計論で使用される表示法など、統計学における図の利用範囲は広く、分析の精度向上に寄与していますが、分析者の理解不足による誤用の問題も指摘されています。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 図で解き明かす統計学の世界:ビジュアルデータの力【ChatGPT統計解析】
統計学でいう「図」
統計数字(データ)あるいはそれから計算したいろいろな量(統計量)を点、線、あるいはその集まりとして平面に視覚的に表現した形を、統計学では「図」といいます。
「グラフ」「チャート」「プロット」「○○表示」「○○図」などと、その形に応じて異なってよばれています。
データに含まれる情報の中には、図に表現することによりはじめて明らかになるものの多く、図は統計的方法としては欠かせないものです。
ことにコンピューターの高性能化によって、図を画面上に描くことが非常に容易になり、さらに色がついたり、精度が向上したり、動画になったり、いろいろな面で技術向上は著しいです。
統計的方法がこれから受けているメリットは大きく、今後もこの傾向は強まることはあっても弱まることはないでしょう。
反面、視覚による客観的な印象が強く作用するなど、視覚化の弊害も無視できない状況になっています。
統計についてとくに知識や関心をもたない人でも、日常「棒グラフ」「円グラフ」「折れ線グラフ」などには親しんでいます。
これらの一般的、基礎的な方法からはじまって、「散布図」(相関図)など、統計的判断のための図など、高度なものまであります。
日常的なグラフ表示
@棒グラフ: 一次元の量の大きさと内訳 例:対米、対中貿易量(輸出・輸入)および内訳、年度毎に並列する場合
A円グラフ: 一次元の量の大きさと割合 例:国家予算(歳入・歳出)の費目割合(%)
B折れ線グラフ: 一次元の量の変化 例:株式相場(株価)の各週データ
このうち、@、Aは基礎的表示としてプレゼンテーションでBは、「変化」の表示法としてすぐれており、理論的にもよく用いられます。
なお、@の棒グラフで変化を表示することも行われますが、表示がやや見にくく、またマイナスの数の場合ゼロが強調されすぎること、2つ以上の量のケースでは混み合いがおこり、全般的に適切ではありません。
やはり@の折れ線グラフが適切です。
なお、棒グラフは横軸をカテゴリー(数ではなく量的なもの)にとることもできるので、「47都道府県別の投票率比較」のように、個別数字の表示と比較にも用いられます。
ただし、横軸に並べる順序にはとくに理由がないことも多いです。
やや進んだグラフによる表示
@レーダーチャート 中心からn本の半直線を放射させてn次元のデータを表示したものです。マイナスは表示できません。レーダーは放射の意味です。
A箱ヒゲ図 最小値、25%点、50%点、75%点、最大値を示す便利な図です。順序統計量が視覚的に示せる点で理論上も優れています。
B幹葉表示 たとえば、125を100+25のように分解し、100台ごとに下2桁を並べて整理する方法です。○○台が「幹」、下2桁が「葉」のように見えます。通勤電車の駅頭の時刻表、バスの時刻表を思い浮かべるとよいでしょう。
Cその他「星座グラフ」「チャーノフのフェイス」などがあります。これらはデータの分布状況の情報を失わないので、大量データから直接にその特徴傾向を抽出する「データマイニング」で使われます。将来有力な方法です。
数理的統計論で用いられる図表示
@ヒストグラム 度数分布表を棒グラフで表示。ただし、横軸は数値の階級区分となります。いろいろな統計量算出の出発点である度数分布表をもとにしており、有用な情報を豊富に含みます。エクセルでは「分析ツール」から作成することができます。
A散布図(相関図) 身長・体重、数学・理科の両変数、失業率・インフレ率などのように2量を平面に、点で表示する関係がかなり客観的に示されるため、相関分析、回帰分析の元になる重要な図です。
B時系列データの表示 時系列データ(時間的変化のデータ)を、横軸に時間をとって表示し、点を折れ線で結んだ折れ線グラフ。数学的分析に不可欠のみならず、時間的変化が忠実に表示されるのできわめて基礎的です。複数の折れ線で、2量以上の変化もとらえられます。
Cその他 クラスター分析のデンドログラム、パス解析のネットワーク図、因子分析の因子得点プロット、デシジョン・ツリーなど高度のものがあります。
地域統計による統計地図
これらの図の多くは、汎用のコンピューターソフトを用いて作成できます。
大型統計パッケージ(SAS、SPSS、TSPなど)では、かなり広範かつレベルの高い精密な図の作成が可能となり、数々のオプションも整備されています。
便利になった反面規格化が進み、分析者自らが十分な理解なく図を作成し、かえって分析が不十分なまま発表されるという問題点も出ています。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
データを可視化する手法について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
データを可視化するとは、数字や情報を絵や図にすることです。これにより、データの意味が一目でわかりやすくなります。主な方法には以下のようなものがあります。
棒グラフ:異なるものを比較する時に使います。例えば、クラスごとのテストの平均点を見るとき、各クラスを棒で表して、高さの違いで比較できます。
折れ線グラフ:時間と共にどう変化するかを見る時に便利です。例えば、1年間の気温の変化を日にちごとに線でつなげて見ます。
円グラフ:全体に対する各部分の割合を見たい時に使います。例えば、お菓子の売り上げで、どの味がどれくらい売れたかを色分けした円で表します。
散布図:二つの異なるデータの関係を見たい時に使います。例えば、勉強時間とテストの点数の関係を、点でプロットして見ます。
これらの方法を使えば、複雑なデータも簡単に、そして分かりやすく伝えることができます。大事なのは、伝えたい情報に合った方法を選ぶことです。