分析時に”扱いやすい単位”に加工する | 第4回 データクレンジング手法

  • f
  • t
  • p
  • h
  • l
title_data_cleansing

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

データ項目はデータ分析の視点にあわせ、結合、分割する

前回までの取込対象のデータファイルの加工データベースのデータ型の変換が完了するとデータ分析を行うデータとしては、整理され、十分、分析できる形になっています。しかし、更に扱いやすいよう、同一項目の結合、分析単位に分割を行います。

クレンジング処理の方法

前回と同様、基本的にSQL命令で行うことができます。変更対象テーブルから変更後のレイアウトのテーブルにデータを取得&追加を行うSQL命令で行います。

同一のテーブル項目の結合

同一のテーブル項目として、日付、時間のテーブル項目の結合を行います。
誕生日などのテーブル項目は、年、月、日の3つのテーブル項目に分かれている場合があります。この場合、経過年(誕生日など)を取得するために、3つの項目を結合してから日付変換、そして現在の日付から年数を計算する必要があります。要するに、日付情報は、年、月、日の3つの項目に分かれていては、非常に扱いにくいです。このような、日付項目は、テーブル項目を結合し、1つのテーブル項目として扱った方が便利です。
また、会計の締めが、日を跨いだ深夜帯になる売上情報のデータ分析を行う場合は、日付のテーブル項目と、時間のテーブル項目(時間だけ文字列で保有)を結合し、時間型のデータ型としてテーブル項目を用意します。これによって、時間を跨いで1日の集計を行う場合、時間指定は1つのテーブル項目だけ絞り込めばよいため、絞込条件がシンプルになり、作業が効率的に行えます。

分析単位にテーブル項目を分割

1つのテーブル項目の中に複数のデータ分析の単位が存在する場合、テーブル項目を分割します。
例えば、1つのテーブル項目に1つの住所が入っている場合、都道府県単位でデータ分析を多く行う場合、都道府県情報だけ独立していた方が、効率的にデータ分析が行えます。また、ログデータの文字列をそのまま1つの項目に入っている場合、条件の絞込みを行うために、長文のログ文字列から検索するため、時間が掛かります。このような場合は、ログの登録形式を調べ、ログの要素単位で分割し、テーブルの各項目に保存します。このように分割して保存することで、長文のログ文字列を検索する必要がないため、検索処理時間が短縮されます。

受領したデータファイルの項目をそのまま使う必要はない

データ分析として受領したデータは、今まで業務データとして使ってきたデータですから業務処理に特化しています。そのため、データ分析に特化していません。これから、クレンジング処理後に行う作業は、データ分析です。そのためには、データ分析に特化した形に変えれば良いのです。レイアウト変更時に重要なのは、レイアウト変更後のテーブル情報が、以前のデータを導き出せることです。
次回は、データ分析を行うために必要な管理情報を追加して、複数のテーブルを統合する方法について記載します。
【連載記事リスト】
1. データクレンジングとは
2. データベースに取込める形にデータファイルを加工
3. データベースのデータ型を変える
4. 扱いやすい単位にデータ加工
5. 管理情報を追加してテーブルを統合
6. ミスを少なくするために登録形式を統一する
7. ETLとは~あらゆるデータファイルを理解してデータベース化する~
8. 取り扱いが難しい文字を変換して快適なデータ分析を楽にする

  • f
  • t
  • p
  • h
  • l