データクレンジング:分析の80%を占める真実【ChatGPT統計解析】
データ分析には時間がかかる。適切な形にデータを加工し、ゴミを取り除くことが必要。これをデータクレンジングと呼ぶ。データクレンジングはデータ分析全体の80%を占め、膨大な時間がかかる。例えば、身長の入力ミスは修正可能だが、体重の場合は判断が難しい。正しい分析のためには正確なデータが不可欠。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
データクレンジング
膨大な時間をかけデータを精査する
正しい分析のためのデータ確認作業
データを分析しようとしても、すぐに分析できるわけではありません。
分析手法によって適切なデータの形があるので、その形にデータを加工しなくてはなりません。
また、データにゴミが混じっていると、正しい分析結果が出てきません。
そのときは、ゴミを取り除く作業を行う必要があります。
このように、データを加工したりゴミを取り除いたりする作業をデータクレンジングと言います。
データクレンジングは、データ分析全体に要する時間のうち、約80%を占めると言われるくらい、時間が必要な作業です。
簡単な例ですと、健康診断のデータを分析すると、身長に17.1という入力があったとします。
これはおそらく171cmの入力ミスでしょうから、10倍すれば正しい値になると思われます。
しかし、体重で25という入力があったらどうでしょうか。
本当に25kgなのか、BMIなどの他の項目の25という数値を打ち間違えたのか、判断に困ります。
このような調査ひとつひとつに、膨大な時間がかかります。
正しい分析のためには、正しいデータ作成が必要です。
正しい分析を行うために、データの修正や加工を行うことをデータクレンジングといいます。
関連記事