楽屋

よりよい分析に導くために、受領したデータについて見ること考えること

今回のテーマは、データ分析業務にあたり、顧客から受領したデータを確認する工程についてです。 この工程をおろそかにしたまま、前処理工程に進むと、データの抜け漏れが見つかったり、不明点が出てきたりするなど、時間と手間がかかります。チェックすべきポイントをおさえて確認したいものです。 データ分析初心者の観点から、実務を通して大事だと思ったポイントを挙げてみます。

1.データ定義書を確認する

受領したデータに精通している場合は別として、人はある程度の”推測”をしながらデータを見てしまいます。また、複数人でタスクを分割する場合、各々が間違った解釈をしてしまうと、あとで修正のための作業が多く発生してしまうかもしれません。 そのため、データ定義書にはあらかじめ目を通しておき、データの概要をつかんでおきます。なお、顧客内のローカルルール(略称など)については、定義書に記載されていない場合もあるため、疑問点があれば質問しましょう。 また顧客にとっては当然とされている業界の専門知識についても、定義書では略されていることもあるので、顧客に尋ねたりインターネットなどで調べることも必要です。

※定義書がない場合

データを見ながら、想定される定義を”全体像”を描くイメージで書き起こしてみましょう。自分自身のデータ理解のためだけでなく、第三者への確認・共有にも役立ちます。

2.データの容量を確認する

大きなサイズのデータの場合、一度に読み込むとPCがフリーズしてしまったり、強制終了することがあります。あらかじめ、どのくらいあるか確認した上、データ量に応じてデータの分割を検討しましょう。

3.データ件数に不足がないか確認する

分析対象となっているデータ件数が決まっている場合は、データに抜け漏れがないかどうか確認しましょう。対象期間が決まっている場合は、日付カラムから確認することができます。

4.値を確認する

① 空白データ

空白の項目は「データなし」「取得中」「取得ミス」なのか、確認が必要です。

② データ定義書に記載がない値

文字列が入っているはずなのに数値が入っているなど、定義書と異なる場合は、データの取得ミスの可能性もあります。数字の桁数が定義と異なる場合は、Excelの数値データの扱いによって先頭の0が非表示になっていることも考えられます。

③ 異常(特殊)な数値

0や無限大(9999…)などの特殊な値については、集計計算などの際に大きな影響を受けるため、どのように扱うべきか確認が必要なことがあります。0については、空白データの代わりに記入されていることもあるので注意です。

5.データの分布を見てみる

多くのデータの場合は一目見ただけでは全体の分布がわからないので、集計ツールなどで可視化します。考えられる切り口(カテゴリ、種別など)で集計したり、基本統計量を計算することで、大まかな全体の俯瞰ができます。また、外れ値として扱うべきか、検討が必要な値があればチェックしておきます。

まとめ

以上のポイントはもちろんのこと、これ以外にもプロジェクトによって確認すべきポイントは多々あるかと思います。今までの業務で、前処理工程に進んでからやっていたなあ…という項目があれば、前もって実施するようぜひ意識してみてください。