ビッグデータの統計学|【ビジネス統計学・統計解析】
ビッグデータ
一時期、「ビッグデータ」という言葉がブームになりました。これは、一般的な統計学データとどう違うのでしょうか。
ビッグデータとは、一言で言うと、「事業に役立つ知見を導出するためのデータ」のことです。
人類が誕生してから2003年までに生み出した全情報量を1とした場合、その後たった10年間でその500倍、さらに2〜3年で1500倍を生み出しています。
まさにビッグデータの名にふさわしい情報爆発です。
統計学データの場合、最初から「これを統計解析するぞ」と決めてデータを収集します。
一方、ビッグデータは日常の仕事を通じて、勝手に集まってきた日々のデータというイメージが合っています。
例えば以下のような例です。
JRの乗車履歴、街角の防犯カメラ:センサーデータ
コンビニでのPOSデータ:オペレーションデータ
購入履歴やブログの書き込み:ウェブサイトデータ
社内文書、電子メール:オフィスデータ
会員のデータ、DMデータ:カスタマーデータ
SNSのコメントなど:ソーシャルメディアデータ
これらのデータは、各所で集めただけに、様々なデータ形式(テキスト、CSVなど)が入り混じっています。
しかも、例えばブログなどのように必ずしもコンピューターで処理しやすい形に整理されていません。
利用する側からすれば、意味のないものも多く、厄介なデータの集まりといえます。
したがって、このビッグデータの中から「価値ある知見」を見出すには、従来の統計手法とは異なる手法が必要とされます。
工学領域で使われる「機械学習」はそうした手法の一つです。
ビッグデータを扱う統計学は、従来の統計学から一歩進化したものといえるでしょう。
ビッグデータを武器とする企業
ビッグデータの活用でIT先進企業は急成長を遂げました。
これにより、ますますデータサイエンティストの需要は高まってきています。
日本では、ビッグデータへの関心は2011年の中頃から高まりました。
ビッグデータによって、急成長を遂げた企業の事例が知れ渡るようになったからです。
代表的な企業は、アマゾン、グーグル、アップルなどのIT先進企業です。
数人から数十人のデータサイエンティストがチームを組み、ビッグデータを分析することで、売り上げをどんどん増やしています。
ビッグデータとは、データの量・発生する頻度・データの種類の3つが桁外れに大きいデータのことを指します。
IT技術の進歩によって、溜まっていくデータが急速に増えました。
利用者のアクセスログ、文章、画像、動画などです。
そのため、データが溜まるスピードに、データを分析するスピードが追いつかなくなってきています。
しかし、ビッグデータを分析する能力を持っていれば、情報を有利に利用できるのです。
そのことに気づいたIT企業達は、データサイエンティストを囲い込んでいます。
日本ではDeNAなどが特に集めています。
関連記事