データクレンジング|【ビジネス統計学・統計解析】
データクレンジング
膨大な時間をかけデータを精査する
正しい分析のためのデータ確認作業
データを分析しようとしても、すぐに分析できるわけではありません。
分析手法によって適切なデータの形があるので、その形にデータを加工しなくてはなりません。
また、データにゴミが混じっていると、正しい分析結果が出てきません。
そのときは、ゴミを取り除く作業を行う必要があります。
このように、データを加工したりゴミを取り除いたりする作業をデータクレンジングと言います。
データクレンジングは、データ分析全体に要する時間のうち、約80%を占めると言われるくらい、時間が必要な作業です。
簡単な例ですと、健康診断のデータを分析すると、身長に17.1という入力があったとします。
これはおそらく171cmの入力ミスでしょうから、10倍すれば正しい値になると思われます。
しかし、体重で25という入力があったらどうでしょうか。
本当に25kgなのか、BMIなどの他の項目の25という数値を打ち間違えたのか、判断に困ります。
このような調査ひとつひとつに、膨大な時間がかかります。
正しい分析のためには、正しいデータ作成が必要です。
正しい分析を行うために、データの修正や加工を行うことをデータクレンジングといいます。
関連記事