
天候と売上の関係性について分析したいんだけど
データが重複してたり、形式がバラバラでこのままじゃ使えない・・・

元のデータを整えるのって大変だよね
データクレンジングにもPower Queryが使えるかも
データクレンジングとデータ分析
データクレンジングとは?
データクレンジングとは、その名前のとおりデータの欠けや不備を修正してデータを綺麗にする作業のことです。
データの質と正確性を高めるためにこの作業が行われます。
具体的なデータクレンジングの作業例としては次のようなものがあります。
- 重複の削除
- 表記の統一:〇〇株式会社と〇〇(株)をどちらかに統一する など
- データ型の統一:日時情報が「テキスト」や「日付」で混在している時に全て「日時」に統一する など
- 欠損値の補完:抜けているデータを埋める など
- データ型の変換:「テキスト」型で入っている数字を「数値」にすることで計算しやすくする など
データクレンジングがデータ分析にかかせない理由
データ分析の結果は業務の意思決定などにも用いられるため、高い信頼性が求められます。
データ分析に用いるデータが欠損値だらけで表記もバラバラだったとしたら、得られた分析結果はあまり信頼できないものになってしまいますよね。
データの正確性はデータ分析の結果に直結するため、適切なデータクレンジングをデータ分析の前処理として行い質の高いデータにすることが重要です。
データクレンジングの主な手法
フィルタリング(不要な行や列の削除)
フィルタリングでは分析に使わない行や列を削除します。
不要な列や行を削除することで、データ量を減らし処理効率を向上します。

最初にこの作業をやるのがおススメ!
他のクレンジング作業で余計な行や列を確認する手間を省けるよ
重複データの削除
データを確認していると、重複しているデータが入っていることが多々あります。
重複したデータをそのままにしておくと、間違った集計結果を招く原因となりかねないため削除しておく必要があります。

データ型の変換
データには「テキスト」、「数値」、「日付」のようなデータ型とよばれるものがあります。
例えば価格を表す数字のデータ型が「テキスト」になっていたりすると集計の時にうまくいかないことがあり、このような場合には、価格のデータ型を「数値」に変換してあげる必要があります。
- テキスト
- 数値
- パーセント
- 日付
- Boolean(True / False)
列の分割
データをどのような形で集計したいかによって、列の分割が必要となる場合があります。
例えば「30℃」のような気温データがあり月ごとの平均気温を集計したい場合、そのままだとデータ型が「テキスト」で適切な計算ができないため「30」という数値と「℃」という単位の列に分割してあげる必要があります。
データの正規化(表記ゆれの補正)
表記のゆれは、同じ意味の内容が異なる表記となっている状態です。
表記ゆれがあると、目的に沿った集計を正しく行うことができず、結果としてデータ分析の精度が下がる原因となる可能性があるため、データ分析前に表記のゆれを補正してあげることが大切です。
- ABC株式会社
- ABC株式会社(株)
- ABC など
この他にも半角、全角の違いなどによる表記のゆれも考えられます。
欠損値の処理
データを確認すると、所々データが欠けているということがよくあります。
本来あるはずのデータが欠けていることで、データ数が少なくなり分析の信頼性も低くなります。
欠けている理由にパターンがある場合は適切に処理してあげることでデータ分析の精度を高めることが期待できます。
- 欠損値の削除:欠損値がある行や列を削除
- 単純補完 :欠損値を一定の値で補完
- 回帰補完 :欠損値と他のデータの関係から予測した値で補完
まとめ
データクレンジングとは、データの欠けや不備を修正してデータを綺麗にすることです。
データ分析を行う前にデータクレンジングを行うことで、分析結果の精度や信頼度を高めることが期待できます。
データクレンジングを適切に行い、よりよい分析結果を取得しましょう。