ExcelのPower Queryで欠測値を処理する方法

Excel
この記事は約3分で読めます。
こまちゃん
こまちゃん

データを確認してたら、値が欠けているデータがみつかったよ

このまま分析しちゃっていいのかな?

なまけもん
なまけもん

データが欠けたままだと分析の精度が下がるかも

できる範囲で欠損値を処理してあげるとデータの信頼度があがるよ

データの欠測値とその影響

データの欠測値とは?

欠測値(けっそくち、英語:missing values)は、観測において、変数に値が格納されないときに発生する。欠損データ、欠落データなどとも訳される。データの欠測はよくあることであり、データから引き出す結論に甚大な影響を与える場合がある。

wikipedia

欠測値によるデータ分析への影響

欠測値があるということは、「あるはずのデータが足りていない」状態と考えられます。

データが足りていない(=データ数が少ない)不十分なデータで分析することになるので、得られる分析の結果も信頼性が低くなることが懸念されます。

<欠測値の種類による違い>

ランダムな場合 :完全にランダムな場合は、バイアスのない解析ができる

規則性がある場合:無視すると分析結果にバイアスがかかる可能性

なまけもん
なまけもん

欠測値にパターンがある場合は、なるべく補完することで

データ分析結果の精度が高くなることが期待できるよ

データ欠測値の処理

Power Queryによる欠測値の確認と削除

欠測値の確認と削除はPower Queryのフィルタリング機能を使うことで対応することができます。

Power Queryでは、何も入っていない値は「null」と表示されます。

詳しい操作方法は関連記事に記載しています。

データの単純補完

フィル

単純に上(もしくは下)の行と同じ値を補完する場合は、

Power Queryエディターを開き、「変換」タブから「フィル」を選択します。

  • 下へ:下方向にデータを補完入力
  • 上へ:上方向にデータを補完入力

値の置換

「値の置換」機能を用いると「null」値を任意の値に変換することができます。

値の置換方法については、参考記事の「Power Queryで表記ゆれを補正する方法」に記載しています。

データの回帰補完

データの回帰補完については、Power QueryだけでなくPythonやRといった統計解析に強い外部ツールを併用することで効率的に実施することができます。

まとめ

データに欠測値があると、本来あるべきデータ数が足りずにその分析結果が信頼性に欠けるものとなることが懸念されます。

特に欠測値に規則性(パターン)が見られる場合には、分析結果にバイアスがかかる可能性があるため、欠測値の適切な処理が必要です。

データ欠測値の処理方法としては、「削除」、「単純補完」「回帰補完」などがあります。

Power Queryはデータの整形や変換が得意なため、「回帰補完」についてはPythonやRのような外部ツールを併用することで効率的に作業を進めることができます。

タイトルとURLをコピーしました