データ表記の補正はなぜ必要?Power Queryでデータ表記のゆれをチェック・補正する方法

Excel
この記事は約3分で読めます。
こまちゃん
こまちゃん

都道府県ごとのデータを集計をしようとしたんだけど

「東京都」,「東京」, 「Tokyo」が別々に集計されちゃった

これじゃ全然使えないよ・・・

なまけもん
なまけもん

データ分析あるあるだよね~

データ分析の前には表記ゆれを補正しておくといいよ

表記ゆれとは? 分析の精度におよぼす影響

表記ゆれとは?

表記ゆれ(ひょうきゆれ)とは、同音・同義の語句について異なる文字表記が付されることである。特に同じ文書や書籍において、同じ語句に対して異なる表記が存在することを指す場合が多い。

参照:wikipedia

なぜ表記ゆれはよくないの?

表記のゆれがあると目的に沿ったデータ分析を行うことが難しくなります

例えば都道県別での傾向を分析する際に、データに「東京都」と「東京」が混在していたとします。

このような場合「東京都」と「東京」で別々に値を集計されてしまい、意図していた分析結果を得ることができません。

データ表記のゆれを予め補正して統一する(例:「東京都」に統一)ことで、より精度の高い分析の結果を得ることにつながります。

よくある表記ゆれの例
  • 文字種類による表記ゆれ
    • りんご, リンゴ, 林檎
  • 日時形式の表記ゆれ
    • 2000/01/01, 2000年1月1日, 1-Jan-2000
  • 省略による表記ゆれ
    • 〇〇株式会社, 〇〇(株), 〇〇
  • 半角・全角による表記ゆれ

など

表記ゆれを補正

Power Queryで表記ゆれを確認する方法

表記ゆれのチェックはPower Queryエディターから行うことができます。

Power Queryエディターの「表示」タブを開き「列の分布」と「列のプロファイル」にチェックをいれます。

列を選択するとそれぞれの列に含まれる「値分布」が表示され、含まれている値を確認することができます。

Power Queryで表記ゆれを補正する方法

値の置換

表記ゆれの補正はエクセル操作の感覚でPower Queryエディターの画面から行うことができます。

Power Queryエディターの「変換」タブを開き「値の置換」を選択します。

「値の置換」画面が開くので、「検索する値」と「置換後」の値を入力して「OK」ボタンを押します。

関数(Table.AddFuzyClusterColumn)を使う方法

ちょっと難しいですが、「Table.AddFuzyClusterColumn」という関数を用いる方法もあります。

この関数を用いると選択した列のあいまいグループ化によって得られた代表値が入った新しい列を追加することができます。

しきい値を設定することができ、半角・全角なども修正された列を作成することができるため、補正のために1つずつ作業をする手間を削減することができ便利です。

詳細方法は下記の記事をご参照ください。

まとめ

表記ゆれは、同音・同義の言葉に異なる表記が付されることです。

表記ゆれを放置したままデータ分析を行うと、目的に沿った結果が得られない原因の1つとなり得るため、前処理段階のデータクレンジングで表記のゆれを補正することが大切です。

Power Queryを適切に用いることで表記のゆれを補正することができます。

ツールを便利に用いて、データ表記のゆれをなくし、よりよいデータ分析結果を手に入れましょう。

タイトルとURLをコピーしました