分析しやすい「出力内容」|データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

分析結果のグラフを想定し、集計単位の全量を出力する

前回は、集計結果を集計単位、集計項目、比較指標の3つのパーツに分類し、それぞれの役目とデータの全体構造について記載しましたが、今回は、各項目の出力内容について記載したいと思います。

集計単位は全量を出力

集計単位は全ての行を表示する

例えば、売上トランザクションデータから、時間帯別の商品品目の売上集計を行う場合、ある時間帯で全く売れなかった商品品目が合った場合、出力結果はどうなるでしょうか?通常のデータベースの問合せ(SQL)処理では、集計単位がデータとして存在しない集計結果は、集計できません。よって、ある時間帯で全く売れなかった商品品は、行として出力されません。
上記の場合、集計単位が、欠落しているため、下記のようないびつな出力結果になります。また、時間帯同士で比較する場合も、集計単位が欠落しているため、正しい比較ができません。そのため、集計対象のデータの有無に関わらず、集計単位は、全量を出力する必要があります。table_data1

集計項目はNull出力しない

上記のような集計単位を全量を補完して出力した場合や、テーブルの外部結合等でデータが欠落した場合、集計項目が集計不能としてNullを返す場合があります。集計結果としては、正しいのですが、Excelなどで集計する場合、Nullは、スペースや文字列として扱われるため、集計結果の関数計算等を行った場合、エラーが発生する場合があります。よって、集計結果としてNullになる値は、”0″などの初期値に置き換える必要があります。(Nullについてはデータ分析用語参照)

補足:集計結果をファイル出力する場合の注意

データベース内の集計結果をそのままTableauなどの分析ツールに連携する場合は問題ありませんが、Excelのインポート処理のように、1度、集計結果をファイル出力してから取り込む場合もあります。ここでは、集計結果をファイル出力する場合のポイントを記載します。

項目間の区切り文字はタブ文字がオススメ

集計結果のデータ内には、カンマ文字が含まれている場合があります。例えば、ソーシャルゲームのハンドル名ごとの集計を行った場合、ハンドル名に顔文字としてカンマを使用していた場合、出力された集計結果ファイルはカンマが原因で正しいCSVファイルとして扱えません。タブ文字を区切り文字とした場合、普通の入力項目では入力できないためリスク回避できます。

出力ファイルの文字コードはUTF-8

集計結果のファイルを出力する場合、文字コードとしてUTF-8を選択すれば間違いありません。UTF-8文字コードは、万国共通の文字コードですので、様々な分析ツールで取り扱えます。
←前回【分析しやすい「データ構造」|データ分析のお作法】へ

連載/関連記事リスト:データ分析のお作法
SERVICE