clock2014.03.23 13:18
SERVICE
home

ギックスの本棚/1億人のための統計解析 ~「エクセル」を最強の武器にする~(西内啓 著|日経BP社)

AUTHOR :  田中 耕比古

1.6k
田中 耕比古
eyecatch_bookshelf_TechAndScience

日経BPちょっと煽り過ぎ。中身は至極まっとうな分析入門書。

1億人のための統計解析 エクセルを最強の武器にする

本書は、「統計学が最強の学問である」の著者 西内啓氏の出した ”統計解析の実践的な入門書”です。しかも、使用するツールは「エクセル」ということで、非常にとっつきやすく、しかし実際は非常に高度な解説本です。(最後にはPower BIも入ってきます)

 仮説は本当に「最初に」要らないのか

本書は、帯に「さよなら データサイエンティスト!」。表紙の折り返しに「仮説は最初に立てるな!」と大書してあります。なかなか刺激的です。我々コンサルタントのいう「仮説思考」を真っ向から批判されてる気がします。

が、実際に読んでみると、全くそんなことはありませんでした。(日経BPさん、ちょっと煽り過ぎなんじゃないでしょうか・・・)

※ちなみに、本書で主張されているのは、あくまでも「最初に仮説はいらない」という意味合いであって、本書の二章以降、分析のステップが進むにつれて「仮説」が登場してきます。本書が”全ての仮説不要論”を主張しているわけではありません。

仮説とは何か

まず、西内氏の「仮説」と、僕ら(コンサル)の「仮説」の定義は違います。ひょっとすると、仮説=硬直化したひとつの結論というイメージが世の中にはあるのかもしれませんが、「仮説」という言葉をコンサルが使う場合は、そういう意味では使っていません。

西内氏の言う「センスによる仮説立案」は、僕の感覚では「勘に頼ったあてずっぽう」という表現が良いように思います。コンサル的な表現でいうところの「仮説」じゃないです。(どちらが一般的な用法なのかはわかりかねますので、西内さんが間違っている、ということではないです。あくまでも”定義が違う”ということです)

西内氏の表現でいうところの「アウトカムに影響を与える変数が何なのか」を考える作業が、僕たちの「仮説思考」に近いと思います。要は、重要なプロセス・必要な作業については「同じこと」を言っているのだと思います。

アウトカムについて、本書から抜粋します。

データを解析するために、まず決めるべきは「アウトカム」だ。解析結果から何が分かるとうれしいのか?売上の向上か、コストの削減か?アウトカムを最初に決めれば、解析の全体方針も定まってくる。

「データから分かったときに、最もうれしい変数」のことを、私は医学と政策科学の分野での表現に倣って「アウトカム」と呼んでいる。これは「成果」という意味だ。

(中略)

ビジネスの場合、目的は利益を上げる事である。だから、利益に直結する指標がアウトカムになる。

仮説を最初に立てるやり方や、総当たりに比べて、アウトカムを最初に設定するのはメリットが大きい。

仮に、100個の項目を持ったデータがあると仕様。全項目について、すべての関連性を検討するためには、「100×99=9,900」もの指標をいちいち確認する必要がある。(中略)

かといって、「CMイメージと来店頻度」のように仮説を1つに決めてしまうと、残り9,899に埋まっているかもしれない、有用なアイデアを見逃すことになる。

だからこその、アウトカムだ。 

弊社のデータサイエンティストである花谷の表現を借りれば、西内さんのメッセージは『総当たりだと10,000通り見るので非効率。仮説だと1しか見ないので外れがち。アウトカムから見ると筋のよさそうな10~100個を見るだけでいい』ということになります。まさに、その「筋の良さそうな10~100個をみる」というための思考様式が「仮説思考」と言えるでしょう。

二章にでてくるマーケティングリサーチ(アンケート)の例でも、知りたい事(=アウトカム)が定義できるからこそアンケートの質問項目を決められるのであって、あてずっぽうに聞きたい事を並べるわけではありません。コンサル的に言うと「最初に仮説がある」状態だと思うのです。

(※以下に出てくる「仮説」という言葉は、コンサル的な意味での「仮説」だとご理解ください)

アプローチは、コンサルとはちょっと違う

然しながら、少々異なるポイントがあります。西内氏の立ち位置としては「分析する」ということがある種目的化しているので(正確に言うと、目的は結果を出すことですが、手段として「分析」が”必ず存在する”前提なので)、”複数のグループ間でデータ比較をするための十分な標本数が、各グループでとれるか”とかが、「仮説立案」の前提になっています。おもしろい視点です。

僕たちの思考回路としては、「この顧客群」と「あの顧客群」はきっと違いが出るだろうというノリ(初期仮説)で思考をスタートさせて、それが十分にデータとしてあるか(もしくはとれるか)?検証できるか?と考えます。一方で、西内氏の場合は「年齢x性別x都道府県で切ったらサンプル数が足りないから、性別は一旦無視しよう(あるいは、都道府県は首都圏、関西とかのエリアで代替しよう)」という風に考えることになるでしょう。

とはいえ、要は順番論の違いではないかと思います。やることは同じ。

やっぱりビジネスセンスは必要=本来の意味でのデータサイエンティストが求められる

というわけで、言葉の定義やアプローチの違いはさて置き、同じことを言っていると思うわけですね。ただ、いずれにしても「”アウトカムに影響を与える変数”をそこそこ外さないでアタリをつけられる能力」が求められているのは間違いありません。それは、結局のところ、経験によって培われたセンスではないかという気がします。つまり「アウトカム」と「その因子」を考える際に、ビジネスの知識(+僕らのいう所の一般常識)が求められますよね、という話です。

少し脱線しますが、コンサルが「センスが無い」という言葉を使うことがあります。これは「常識で考えたらわかるだろ。なんでわかんないの。」ってことだと思います。コンサルで言う所の「コスト削減だったら最初にウォーターフォールチャート書くだろ」とか「競合調べろって言ったら最初に有価証券報告書とアニュアルレポートだろ」とかって話です。(ホスト的に言うと「たばこ持ったら火だろ」「グラス空いたら注げよ」みたいな話なのかもしれません。)そういう【あたりまえ】 が重要なんだと思うわけですね。そういう常識が必要なのは、西内式アプローチでも、コンサルアプローチでも同じなんじゃないかなと思うわけです。

そして、このビジネス的に考えられる能力は、米国における「データサイエンティスト」が兼ね備えているべき能力です。ただ、残念ながら、日本の「データサイエンティスト」という言葉は、統計専門家・DB技術者などを指すことが多いように思いますので、「さよならデータサイエンティスト」という帯の言葉が「さよなら日本的定義のデータサイエンティスト」という意味であるならば非常に共感できます。(この言葉の定義の「差分」を埋めるために、ギックスではデータアーティストという言葉を敢えて提唱しています)

ギックスでは「ビジネスが分かる企画部門が分析をできるようになることが重要であり、そして、そういう時代がもうきている」と考えています(*)が、それと、全く同じ結論に西内氏が至っているのは非常に心強いと感じます。

既にエクセルが使えるという自負のある人も読むべき

この本は、読みやすい文章で平易に説明されていますが、内容は非常に高度です。

重回帰分析をエクセルで行う、とかって「普通の人はやらないでしょ」ということを「いや、やるでしょ。重回帰。みんなやってるよ。ほんとほんと。じゃ、いくよ。」という感じでサラッと説明していきます。ハードル高いです。(ただし、ちゃんと「ピボットテーブル作ったら、IDがズレてないかチェックしようね」だとか「重回帰分析はエクセルの制限上15個までしか説明変数持てないから、絞り込まなきゃダメなんだよ」とかいう懇切丁寧な説明が常についています。)

従って、初心者の方は相当気合を入れて読むことが求められますが、その反面、これを読み解けば、胸を張って「分析できる」と言って良いと思います。尚、実際の分析業務は誰か(部下やベンダーさん)にお任せしても良いのですが、こういうものは本質を理解しておくことが重要ですので、企画部門の方は、ご一読されるべきかと思います。

また、第四章では、さらに高度な分析を可能とするMicrosoft社のPower BIを活用する分析方法にも触れています。Power BIについては、弊社のブログでも活用方法に関する記事を作成していきますので、そちらもご参照いただければと思います。

本書の書かれた背景・思想を理解するために「おわりに」を先に読むと良い

本書は、普通に頭から読み通していただくのも良いのですが、僕のお奨めの読み方は、まず「はじめに」を読んで、次に「おわりに」を読んで、それから「第一章」に入ることです。その方が、西内氏が本書を描いた理由が良くわかるように思うからです。

「おわりに」から、少し長めに引用します。

大学で初めて受けた統計学の授業では、当たり前のようにExcelを使った統計解析の宿題を課されていた。それがどれだけ恵まれていることなのか、気づいたのは数年たってからの事である。

自分よりほんの数歳年上の先生方に聞くところでは、卒業論文執筆時の統計解析を行うにも、テキストベースの白黒画面にプログラムとコマンドを入力しなければならなかったという。

(中略)

おそらく私と同様1980年前後に生まれた方々は、皆が大学入学時点で当たり前のようにパソコンを扱うようになった最初の世代だろう。ビル・ゲイツの目指した「すべての家庭にパーソナルコンピュータを普及する」というビジョンが実を結びだした世代と言ってもいいかもしれない。

1977年生まれの僕は、大学指定で買わされた富士通FM-Vが、Windows 3.1搭載 で、まだまだ使いにくく、何か設定しようとするとすぐにMS-DOSプロンプトを開いていたのですが、そこから数年で世界は大きく変わりました。最初1GBほどだったノートパソコンのHDDは、あっという間に10GB、100GBと大きくなりました。また、8MBとかだったメモリはGBの世界に到達しました。1.44MBのフロッピーディスクなんて、今となっては想像もつかないですよね・・・。

そのタイミングで大学に入った著者および、それ以降の世代(僕らも含む)が「パソコンがあるのが当たり前」なのはよくわかります。そして、だからこそ「ちゃんと使おう」という話になるべきですよね。(つまりパワポのチャラいお絵かきツールとしてパソコンを使うのはもったいない、という話です。まぁ、僕は、結構そういう感じで使いがちなのですが。)

そして、まさにこの一文。

2011年のマッキンゼーのレポートによれば、今後アメリカでは十万人以上のデータサイエンティストが不足するそうだ。そこでもし全ての日本のビジネスマンが当たり前のようにデータ分析の力を活かせるようになれば、それは即ち日本全体の国際競争資源と言っていいほどの力になるかもしれない。

そうなんです。日本の競争力は「知性」によって構築されるべきだと僕は思います。人口減少傾向にあり、土地や資源も限られた日本と言う国が、世界と戦うには「個々人の能力」を高めるべきだと思います。(余談ですが、日本の誇る”サービス業の品質”も、僕は「知性」の結果だと思います。サービスとは「想像力」によって構成されます。この人はこうしてほしいのだろうな、この人はこれで困ってるのかな、と”想像”する力が重要です。)

法隆寺の屋根の曲線は、雨水のハケをよくするためにサイクロイド曲線になっていたりします。ライプニッツより先に関孝和が行列式を発見していたりします。フランシスコ・ザビエルが日本に来た時に「日本人は大名から庶民まで数学が好きだ」と評したりしています。そんな”かつて”は数学先進国だった日本の良さを取り戻すのタイミングは、今しかないかもしれません。(**)

そんな僕の感想はさて置いたとしても、西内氏が、どういう目的で書いているのかが「おわりに」には非常に良く表れているように思います。本書をお買い求めの方は、まず「おわりに」を一読してみてはいかがでしょうか。(ミステリー小説じゃないし、ネタバレの心配もありません)

本書を読んで、データ分析の領域における「当たり前のレベル」を向上させ、海外企業(若しくは海外の人材)に負けないような能力を培っていきたいものですね。僕も頑張ります!

1億人のための統計解析 エクセルを最強の武器にする

1億人のための統計解析 エクセルを最強の武器にする

【脚注】

*:弊社代表取締役 網野知博 著 「会社を強くするビッグデータ活用入門
**:この一節は藤原正彦 著「日本人の矜持」 を参考にしました。

 

SERVICE

SERVICE

BANNER

graffe

grip

GiXo BLOG

recruit

Aibou

amazon web service partner network

TAG BOX