管理情報を追加してテーブルを統合 | 第5回 データクレンジング手法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

複数テーブルを1つに統合することで、横並びの比較が可能となる

前回、データ分析に合わせて、テーブル項目の同一項目の結合、または、分析単位に分割する方法についてご紹介しました。今回は、その発展形として、テーブルの統合をご紹介します。また、この際、テーブル統合しても情報が壊れないように”管理情報”を追加する方法をご紹介します。(参考:データベースのテーブルとは)

なぜデータファイルは分割されているか

データ分析を行う際、データファイルを受け取りますが、データファイルは、店舗、日付、システムなどの単位で分割されて受取る場合があります。これは、データファイルを作成するクライアント(お客様)のシステムや業務によって致し方ない事情ですので、クライアントに対して、データファイルのまとめて1つのファイルにすることを要求してはいけません。
データ分析を担当する人が、データクレンジング処理でまとめる必要があります。

テーブルを統合する理由

店舗ごとに売上情報テーブルが分かれている場合、同店舗の売上の前日比は集計で求められますが、同日の売上の店舗比を行う場合、複雑なSQL命令で集計することになり、処理時間も掛かります。また、店舗が追加されるたびに、SQL命令の変更を行う必要があり、非効率です。そのため、同一情報のテーブルは、1つのテーブルに統合する必要があります。統合すれば、店舗が増えてもSQL命令を書き換える必要はなく、複数のテーブルに問い合わせる必要がないため、処理時間も短縮できます。

テーブルを統合する時に管理情報を追加する理由

複数のテーブルを1つのテーブルに統合する際、統合元のテーブルに統合元を判断する情報が含まれていれば、管理情報を追加する必要はありません。例えば、店舗ごとに売上情報テーブルを1つのテーブルに統合する場合、店舗ごとに売上情報テーブルに店舗コードなど店舗を判断する情報が含まれていれば、テーブル統合されても店舗の判断が行えます。しかし、店舗コードがない場合は、テーブル統合後は、店舗の判断が行えなくなります。
そのため、テーブル統合を行う前に、統合元を判断する情報が含まれているか確認し、判断情報がない場合は、テーブル統合時に情報を付加する必要があります。data_cleansing3

データクレンジングとはデータを”磨く”こと

今回までに数回に渡り、データクレンジングについて説明しましたが、データクレンジングに「ここまで行えば終わり」というラインはありません。データ分析を行っていく中で、新たなデータクレンジングの要求は発生します。その度に、荒いデータを滑らかなデータに磨き上げるデータクレンジングが必要になります。
尚、graffeでは、今回ご紹介してきたデータクレンジング手法以外にも様々な方法を用いて、頂いたデータを余すところなくデータ分析に活用していますので、機会がありましたら応用編もご紹介していきたいと思います。
 
【連載記事リスト】
1. データクレンジングとは
2. データベースに取込める形にデータファイルを加工
3. データベースのデータ型を変える
4. 扱いやすい単位にデータ加工
5. 管理情報を追加してテーブルを統合
6. ミスを少なくするために登録形式を統一する
7. ETLとは~あらゆるデータファイルを理解してデータベース化する~
8. 取り扱いが難しい文字を変換して快適なデータ分析を楽にする

SERVICE