複数項目から分析キーを作る場合のお作法 | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

複数項目から分析キーを作る場合は分析キー項目を作ればミスらない

データ分析の対象となるデータは、商品情報や顧客情報などの商品コードや顧客番号で一意(参照:データが「一意となる」とは)になるマスタデータで(参照:マスタデータ、トランザクションデータとは)はなく、売上情報などの日々増えていくトランザクションデータが、分析の中心となります。これらのトランザクションデータの一意となる情報は、1項目だけと限らず、複数項目で一意となる場合があります。これら複数項目で一意となるデータについて、効率的に分析を行うためのデータの持ち方を説明します。

複数項目で一意となるとは

「複数項目で一意となる」ということは、どういった事なのか? スーパーなどのPOSデータを例に出して説明します。
POSデータには、お客様が購入した商品情報が1商品1行として保存されています。そして、レシートを判断するためのレシート番号が入っています。このレシート番号だけで1つのレシートを特定できれば良いのですが、レシート番号は、店舗、レジごとに管理している場合、レシート番号だけでは一意となりません。更にレシート番号には、1番から順に振っているため、レシート番号の最大数になった場合、1番から振り直します。そのため、会計時間もキー項目として追加しなくてはいけません。
そのため、POSデータでレシート内の購入商品を特定するためには、「会計時間 + 店舗番号 + レジ番号 + レシート番号 + 商品コード」の5つの項目で一意となります。excel_pos

分析キー項目を作成する

上記のように複数項目でキーを作成した場合、毎回、データ分析を行うために手間にばかりでなく、作業ミスも発生しやすくなります。そのため、複数項目をつなぎ合わせたキーを項目として追加します。項目を結合する場合、日時型を文字列変換し、数値は前ゼロ詰めして、分析キーの桁数を揃える必要があります。
また、この分析キーは、1行を特定する一意キーだけでなく、分析用途によって分析キーを持つことも有効です。excel_pos2
更に分析キーをDBのテーブルに追加した場合は、複数項目を毎回結合して検索していた時に比べ、検索する処理速度が速くなる場合があります。(テーブルにインデックスが必要な場合があります)

連載/関連記事リスト:データ分析のお作法
SERVICE