clock2014.03.23 11:01
SERVICE
home

べき分布のデータには注意しよう|ビッグデータ分析の留意点④

AUTHOR :   ギックス


購買系のビッグデータには「べき分布」が多く注意が必要

(第2回)(第3回)で全量分析の優位点について紹介しました。本日からは、全量データに注意すべき点を説明します。本日は注意点①の以下のポイントです。

注意点①:サンプルデータは中心極限定理により正規分布を仮定されることが多いが、ビッグデータをそのまま扱うと「べき分布」になることが多く、分析には注意が必要。

「中心極限定理」とは、無作為抽出した標本で、かつ標本数が大きければ、母集団の分布にかかわらず「標本の平均値の分布」が正規分布に近づくというものです。これは誤解されることが多いのですが、母集団の分布にかかわらず正規分布に近づくのは、あくまで標本の「平均値の分布」で、「標本そのものの分布」は、当然のことですが「母集団の分布」に近づきます。しかし、統計分析の現場では、この中心極限定理を根拠に、サンプルデータでの統計解析をデータが正規分布であるという仮定で分析することが多いです。もちろん、多変量解析の手法の多くは、正規分布を前提としたものなので、こうした仮定をおくことは、やむを得ない部分もあります。しかし、分析にあたってデータの分布の「形」に注意しなければならないのは、サンプルデータもビッグデータも同様といえます。

マーケティング分野のビッグデータで多くみられる購買データの場合、「べき分布」に従うことが多いので、サンプルデータ以上に注意が必要です。「べき分布」とは、ざっくり言うと、サンプルのほとんどがゼロの値を取るが、ごく一部のサンプルは極端な値を取る分布のことで、資産の分布など、経済現象に多く出現する分布と言われています。

正規分布

図1:正規分布

べき分布

図2:べき分布

(出所:http://www5.cao.go.jp/seikatsu/whitepaper/h20/01_honpen/html/08sh21310c.html

図1,図2に正規分布とべき分布のグラフを示しましたが、これだけでも分布の「形」が大きく異なっていることがご理解いただけるかと思います。

べき分布データでの多変量解析・重回帰解析は意味がない

ビッグデータで多くみられる購買データでは、「べき分布」が多くみられることから、正規分布を仮定した多変量解析の手法がうまく働かないことには、サンプルデータ以上に注意が必要になります。データの分布が正規分布にどれだけ近いかということについては、歪度、尖度といった基本的な指標があります。歪度とは、分布の「左右対称性」を表す指標で、尖度とは、分布の「尖り具合」を示す指標です。これらの指標はどのソフトでも簡単に出力できます。平均、分散、中央値(メジアン)、最頻値(モード)などの基本統計量とともに、確認しておくことが重要です。

べき分布の場合、歪度、尖度ともに非常に大きい値になります。このような場合には、主成分分析や因子分析といった、べき分布の変数同士による多変量解析は、まず意味がありません。また、べき分布を被説明変数とした重回帰分析についても、通常の線形回帰では正しい結果が出ないことが多いです。

対応先としては、被説明変数を「1-0」に変換したロジスティック回帰分析や、トービット・モデルを使用するなど、モデルを工夫する必要があります。多変量解析に頼らず、クロス集計を見るということも、有効な方法です。

 

【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】

nakanishi

中西 規之(なかにし のりゆき)

ギックス統計アドバイザー。公益財団法人日本都市センター研究室主任研究員、フェリス女学院大学国際交流学部非常勤講師(社会統計学)などを歴任。東京工業大学大学院社会理工学研究科社会工学専攻修士課程修了。最近の関心は、市民、民間、行政の3者が「Win-Win-Win」になるような、公共サービスにおけるビッグデータ・オープンデータの活用のあり方について。

SERVICE