データ分析のレンジによって数値情報をカテゴリに変換する | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

数値情報をレンジによってカテゴリに変換することで、新たな分析視点が生まれる

データ分析では、レンジによって数値情報をカテゴリに変換して、そのカテゴリを使用して分析する事が多いです。今回は、データ分析でレンジが必要になる理由と、レンジによって作成されるカテゴリについて説明したいと思います。

データ分析のレンジとは

データ分析のレンジについて、IT用語辞典では下記のように説明しています。

レンジとは、範囲、幅、域、射程、航続距離、変動する、及ぶ、分布する、並べる、整理する、などの意味を持つ英単語。
プログラミングや信号処理などで、値や信号レベルなどが変動する範囲(最大値と最小値の間の領域)のことをレンジという。
引用:IT用語辞典

データ分析では、数値情報の範囲を幾つか決め、それぞれの範囲に収まる情報についてカテゴリ名を付ける事が一般的です。例えば年齢データの場合、20歳未満を”未成年”、20歳以上40歳未満を”青年”、40歳以上60歳未満を”中年”、60歳以上を”シニア”などとカテゴリ名を付けます。

数値情報が分析単位として使えない理由

年齢データのようにある程度の下限(mini)と上限(max)の範囲が決まっていれば、レンジを使わずにそのまま各年齢ごとに集計して分析することも可能です。しかし、商品の売上金額、全国の市区町村の人口など幅広い範囲のデータについては、レンジを使わないで集計した場合、膨大な情報量(行数)になり、人の目で分析することは不可能になります。つまり、レンジを使ってカテゴリを作成することは、人が理解しやすいように集約するために必要なことなのです。

レンジによって作成されるカテゴリ数について

レンジによってカテゴリを作成する時に重要になってくるのが、カテゴリの数です。カテゴリの数が多すぎると情報が集約しきれず、理解が難しくなってしまいます。また、カテゴリの数が少なすぎると必要な情報が埋没してしまう場合があります。
カテゴリ数の最小数については、データの種類によって様々ですが、カテゴリ数の最大数については、多くても30個以内に収めた方が良いと思います。なぜならTableauなどのBIツールで集計結果を表示した時、30個以内だと1つ1つの情報を確認することができるからです。

複数のデータ項目を組み合わせてレンジカテゴリを作る

年齢の場合は、性別によって下限と上限の範囲のバラつきがないため問題ありません。しかし、売上金額の場合は、商品の種類によって大きく範囲が異なります。この様な種類によって範囲が異なるデータについては、数値項目だけでなく種類項目の内容によってレンジの範囲を変える必要があります。
下記の例は、小売店のお酒の種類ごとの売上単価のレンジの範囲です。全体的に単価が安い缶チューハイなどはレンジの幅を小さくし、単価が高いワインだどはレンジの幅を小さくしています。もし、種類ごとにレンジの幅を変えなかった場合、低価格カテゴリには缶チューハイが集中し、高価格カテゴリにはワインが集中してしまい、正しい分析が行えなくなってしまいます。range

連載/関連記事リスト:データ分析のお作法
SERVICE