ダブりのある集合の計算には気を付ける|クロス集計の落とし穴

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

単純合計してはダメな場合を「把握」しよう

クロス集計は、基本的な分析手法の一つです。例えば、POSデータ分析においては、まず行うべき分析の一つであると言えるでしょう。基本的だからこそ重要なクロス集計ですが、注意して扱わなければならない点がいくつかあります。
まずは、ダブりのある集合の計算に気を付ける、について書いていきたいと思います。

ダブりのある集合の計算 とは

「リンゴが好きな人は15人いて、みかんが好きな人は12人います。リンゴとみかんの両方が好きな人は10人います。では、リンゴまたはみかんが好きな人は何人でしょう」
小学生の算数に出てくるような問題です。
答えは、15+12-10=17(人)になります。 リンゴが好きな人の人数(15人)とみかんが好きな人の人数(12人)を足しただけではいけません。
タブっている人数(10人)を引かなければいけません。
とても初歩的な計算の話ですが、項目が複雑になってくると、こんな初歩的な部分で、ついついミスを犯してしまいがちです。

POSデータ分析におけるダブりのある集合の計算の例

あるスーパーでは、ビールAからビールKまでの10種類のビールを取り扱っています。
POSデータ分析の結果、1か月間の各ビールの購入人数(決済数)は、次の表のようになりました。
cross2-1
この表を見たこのスーパーの店長は、商品単位ではなく、カテゴリ単位で「ビール」を購入した人数を把握したくなりました。
そこで、ビールAからビールKまでの購入人数の合計を計算しました・・・。
cross2-2
お分かりの通りだと思いますが、「ビール」というカテゴリの購入人数は、ビールAからビールKまでの購入人数の合計と一致しません。 なぜなら、ダブりがあるからです。
ビールAとビールBなど、複数の種類のビールを同時に買った人がいるという意味です。(もしダブりがなければ合計と一致するのですが、ダブりが全くない可能性は現実的にはほぼゼロでしょう)
冒頭のリンゴとみかんの例とは異なり、この例はやや複雑です。ダブりを意識していないと、単純に人数を足してしまいがちです。

分析に必要そうな「切り口」はあらかじめ用意しておく

この例で、「ビール」のカテゴリの購入人数を計算したい場合はどうしたらよいかといいますと、POSシステムのトランザクションデータ(決済ごとの売上データ)まで戻って、該当する商品(このケースだとビールAからビールK)に商品カテゴリ(このケースだと「ビール」)を付与して集計しなおさなければなりません。
この作業は、煩雑で時間もかかります。
そのため、こういう「切り口」で分析したくなるであろうという項目をあらかじめ考えておき、集計する前にその項目をデータに加えておくことが重要です。

【連載:クロス集計の落とし穴】
  1. ダブりのある集合の計算には気を付ける  (本編)
  2. 「全体の平均」と「平均の平均」は違う
  3. 「一人当たり」はどんな「一人」であるかに要注意
  4. 具体例:「足せる平均値」と「足せない平均値」
【連載、検証:エクセルでどこまでビックデータ分析ができるのか?】
  1. エクセルは”かなり”使える
  2. エクセルで大量データを回すためのコツ
  3. ファイルサイズを押さえるコツ
SERVICE