ビッグデータの統計学【統計学講義基礎】
一時期、「ビッグデータ」という言葉がブームになりました。これは、一般的な統計学データとどう違うのでしょうか。
ビッグデータとは、一言で言うと、「事業に役立つ知見を導出するためのデータ」のことです。
人類が誕生してから2003年までに生み出した全情報量を1とした場合、その後たった10年間でその500倍、さらに2〜3年で1500倍を生み出しています。
まさにビッグデータの名にふさわしい情報爆発です。
統計学データの場合、最初から「これを統計解析するぞ」と決めてデータを収集します。
一方、ビッグデータは日常の仕事を通じて、勝手に集まってきた日々のデータというイメージが合っています。
例えば以下のような例です。
JRの乗車履歴、街角の防犯カメラ:センサーデータ
コンビニでのPOSデータ:オペレーションデータ
購入履歴やブログの書き込み:ウェブサイトデータ
社内文書、電子メール:オフィスデータ
会員のデータ、DMデータ:カスタマーデータ
SNSのコメントなど:ソーシャルメディアデータ
これらのデータは、各所で集めただけに、様々なデータ形式(テキスト、CSVなど)が入り混じっています。
しかも、例えばブログなどのように必ずしもコンピューターで処理しやすい形に整理されていません。
利用する側からすれば、意味のないものも多く、厄介なデータの集まりといえます。
したがって、このビッグデータの中から「価値ある知見」を見出すには、従来の統計手法とは異なる手法が必要とされます。
工学領域で使われる「機械学習」はそうした手法の一つです。
ビッグデータを扱う統計学は、従来の統計学から一歩進化したものといえるでしょう。
★★統計学目次★★