分析しやすい「データ構造」|データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

集計結果の出力方法内容でデータ分析手法は大きく変わる

データベース内に登録された大量のトランザクションデータをSQLなどを使用して集計します。集計後は、ExcelやTableau、Power BIなどでデータ分析を行います。この時、集計結果が、分析しにくい形になっていると、多角的に分析できません。分析しやすいデータとは、どのようなデータ構造であるべきかを記載します。

集計単位を考える

何単位で集計するか?を考えます。売上トランザクションデータの場合、売上日、商品、顧客コードなどが挙げられます。これらの集計単位は、複数の項目の組合せでも構いません。また、売上時分などの細かい集計単位になる場合は、売上時などに集約後に集計する必要があります。

集計項目を考える

どの項目の集計を行うか?を考えます。売上トランザクションデータの場合、個数、金額などが挙げられます。また、明細件数を求める場合は、純粋にデータ件数を求めれば良いですが、利用人数を求める場合は、売上トランザクションデータの明細情報から顧客コードの重複データを除いたデータ件数を取得する必要があります。

比較指標を考える

1項目の集計結果が、他の項目と比較できる指標を考えます。売上トランザクションデータの場合、売上日と商品単位で集計した場合、同日の売上で商品の売上金額シェアは分かりません。そのため、比較指標として、売上日単位の売上金額合計が必要になります。

集計結果を作成する

上記の3つの要素を下表のように配置した集計結果を作成します。bunseki_table
集計単位は、行としてデータを持たせます。例えば、商品の場合、商品単位に列を追加せず、商品列に複数行の商品を並べます。このようにデータを持たせる事によって、Excelなどで商品ごとにフィルタリングが行えるようになります。また、商品が増えた場合、行が増えるだけのため、新たに集計処理を書き換える必要はありません。
比較指標は、比較指標の集計単位での集計処理のみ行い、シェア(割合)は求める必要はありません。それは、集計結果を分析するExcelなどで行えるからです。また、比較指標の集計単位は、全体の集計単位(図の青い部分)と異なるため、集計処理が複雑になるため注意が必要です。

次回の予定

このように、Excelなどの分析ツールが、分析しやすいデータとは何か?データが増えたとき作り変える必要がない構造とは何か?を考えデータ構造の全体を考える必要があります。次回は、集計結果の全体の構造から、各項目に焦点を絞って解説をしたいと思います。
→次回【分析しやすい「出力内容」|データ分析のお作法】へ

連載/関連記事リスト:データ分析のお作法
SERVICE