ビッグデータの統計学【統計学講義基礎】

一時期、「ビッグデータ」という言葉がブームになりました。これは、一般的な統計学データとどう違うのでしょうか。

ビッグデータとは、一言で言うと、「事業に役立つ知見を導出するためのデータ」のことです。

人類が誕生してから2003年までに生み出した全情報量を１とした場合、その後たった１０年間でその５００倍、さらに２～３年で１５００倍を生み出しています。

まさにビッグデータの名にふさわしい情報爆発です。

統計学データの場合、最初から「これを統計解析するぞ」と決めてデータを収集します。

一方、ビッグデータは日常の仕事を通じて、勝手に集まってきた日々のデータというイメージが合っています。

例えば以下のような例です。

JRの乗車履歴、街角の防犯カメラ：センサーデータ

コンビニでのPOSデータ：オペレーションデータ

購入履歴やブログの書き込み：ウェブサイトデータ

社内文書、電子メール：オフィスデータ

会員のデータ、DMデータ：カスタマーデータ

SNSのコメントなど：ソーシャルメディアデータ

これらのデータは、各所で集めただけに、様々なデータ形式（テキスト、CSVなど）が入り混じっています。

しかも、例えばブログなどのように必ずしもコンピューターで処理しやすい形に整理されていません。

利用する側からすれば、意味のないものも多く、厄介なデータの集まりといえます。

したがって、このビッグデータの中から「価値ある知見」を見出すには、従来の統計手法とは異なる手法が必要とされます。

工学領域で使われる「機械学習」はそうした手法の一つです。

ビッグデータを扱う統計学は、従来の統計学から一歩進化したものといえるでしょう。

ビッグデータの統計学【統計学講義基礎】 | 統計学講義【最速で統計学をマスターするサイト】

ビッグデータの統計学【統計学講義基礎】

★★統計学目次★★

メニュー

サブメニュー

最新記事