clock2015.02.25 09:13
SERVICE
home

第7回  STEP4 データ加工(2次属性付け) その1|POSデータで事業構造分析 with Power BI

AUTHOR :  花谷 慎太郎

Power BIで実践するPOSデータの事業構造分析を公開

この連載では、2013年11月に弊社CEOの網野が出版した「会社を強くするビッグデータ分析」「Part2 分析の実践」の部分を「Power BIでPOSデータを使って事業構造分析を実践する」という具体的な実践例を紹介しながらアップデートしていきます。

今回はSTEP4の「データ加工(2次属性データ作成)」について紹介します。事業構造分析プロセスの以下のSTEP4の部分です。

STEP4 データ加工

2次属性の定義

前回説明したように、分析データが揃った後にSTEP3で仮説を立てることは事業構造分析では必須です。そして、その仮説を検証するためにデータに対して加工を施すというアクションが2次属性付けになります。

2次属性は「人間が解釈して、後から付与する人やその商品、購買傾向の特徴となる属性データ。仮説検証・事業構造把握のためにトランザクションデータを集計・加工し新たに作成する属性ともいえる」と定義されます。

統計界の言い回しでは、2次属性付けは「データハンドリング」という用語が近いイメージです。データ分析の前処理という意味では「データクレンジング」という用語もありますが、「データクレンジング」が欠損値など分析可能な形に加工する作業であるのに対し、「データハンドリング」は分析の目的意識に合わせて変数を加工するというニュアンスを持っていますので、「データハンドリング」のほうが2次属性付けに近い概念となります。

2次属性の付け方

その2次属性は、仮説検証・事業構造の把握のために思いつく限りさまざまな形でつけるわけですが、その中でも仮説検証や事業構造把握の際によく使う2次属性の汎用パターンというものが存在します。こういったパターンをいくつか覚えておきますと、分析を効率的に進めることに役立ちます。

この連載では汎用的に使える2次属性付けのパターンのうち、「ランク付け」と「カテゴリー利用フラグ付け」について紹介したいと思います。本日はまずその概要について。

1. ランク付け

ランク付けは、人ごとの購買金額や購買頻度などを、ある閾値をベースにランク付けすることを言います。ランク付けすることによって、購買金額で見たときの優良顧客や頻度でみたときの優良顧客というセグメント付けが可能になり、更に後のSTEPであるクロス集計によって、セグメント間の違いを確認することができるようになります。閾値の決め方は、先に基準があるのであれば、その基準に基づいた値を使いますが、特にない場合は、例えば四分位点を利用して、購買金額や購買頻度を機械的に4分割してランク付けをするという方法をとることが多いです。(Power BIでの具体的なランク付け方法については、次回紹介したいと思います。)

2. カテゴリー利用フラグ付け

カテゴリー利用フラグ付けも、頻繁に活用する2次属性付けです。例えば、トランザクションデータを人単位で集計して、その人がどのカテゴリーの商品を購入しているか、フラグ付けします。それにより購買が単カテゴリーに偏っているのか、多様なカテゴリーに渡って購入しているかの購買傾向を把握することが可能です。あるカテゴリーの製品を買っている人が、別のカテゴリーのものを買っている併売傾向を把握する、すなわちマーケットバスケット分析のインプットもこの2次属性付けによって作成することが可能になります。(Power BIによるカテゴリー利用フラグ付けの方法については、次々回に紹介する予定です。)

本日は、STEP4のデータ加工について、2次属性付けの定義と、2次属性付けの汎用パターンのうち「ランク付け」」と「カテゴリーフラグ付け」の概要を紹介しました。次回、次々回とPower BIでのその具体的な手法について紹介します。

 

SERVICE