clock2013.12.09 15:08
SERVICE
home

アクセンチュア アナリティクス日本統括 工藤卓哉氏 ビッグデータ対談 その①

AUTHOR :  網野 知博

トップランナーと「ビッグデータ」を語る

日本を代表するデータサイエンティストの工藤卓哉氏。
11月上旬に工藤氏の著作である『データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方』(日経BP社)が発刊されたのを機に、弊社の網野知博が対談を行って参りました。(インタビュー日時:11月18日 ※発言内容は当時の状況になります)

データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方

 

網野:

お久しぶりです。前回お話させて頂いたのは、僕の本の対談に出て頂くためにお時間を頂いたのですが、2013年7月21日で夏真っ盛りでした。

おかげさまで、私の本も11月下旬についに出版されます。

工藤:

おめでとうございます。買いますね。笑

網野:

献本します。笑

工藤さんの本が先週出版されましたが、さすがにいい本ですね、やっぱり。

工藤:

ありがとうございます。

網野:

映画のタイトルで言えば、「冷静と情熱のあいだ」みたいな。笑

冷静で厳しくもある話の中に、とても熱い思いも伝わってきました。

前回お会いしたときも感じたのですが、「この人はビジネスにもちゃんと興味を持てるデータサイエンティストなんだな」と言うのが工藤さんの印象なのですよね。

見た目は学者っぽいけど、笑 きちんとビジネスの事も常に見ている。

さて、いつくか本の内容に関して伺っていきたいと思います。

本の冒頭から、「たくさんのデータが集まったから、これを分析して何か気づきが得られないだろうか。」という曖昧な態度でデータ分析に取り組んではいけない」と厳しく刺しにくるわけですが。笑

工藤さんがこの本を書くに至った背景などをまずは教えて頂けますか。

工藤:

最近ビッグデータブームが盛り上がるとともに、なんとなくデータ分析を行いたいと言うリクエストが増えましたよね。

物販系の多くの事業者ではWebログが大量に発生しているわけですが、Webログが沢山あるので、「なんかやってくれませんか?」と言うオーダーが来たりします。

分析してもマイナスではないですし、PoC(Proof of Concept)的に小規模で試してみるならまだしも、いきなり数億の投資で大規模にやると言う。

個人的には辞めた方が良いですよ、と伝えます。そういうのはお客様にとっても良くない。

網野:

それは既に予算が取ってあって、そのような相談がくるのですか?

工藤:

そうです。そうです。お客様を訪問してみたら、既にやる事を前提で話が進んでいたのですが、つい「やめた方がいいですよ」と言ってしまいました。苦笑

分析の目的が何かしらあればいいと思います。例えば「売上を向上させたい」といった目的があるのなら、私も「絶対結果出します」と宣言して一緒に頑張れます。

でも、「なんかWebのログが貯まったから分析してみてください。それで、何か考えてみて下さい。」って・・・。さすがに違うと思いますから。

また、別のお客様でも、Webログ分析をしたいと言うので現状をヒアリングしてみると、セルイン(出荷)データだけしかデータがなくて、セルスルー(実売)が取れていない事が判明しました。

実売データがないのに、クリックストリームだけやってもGoogle Analyticsで分析するのと変わらなくなってしまいますから。まあ、それはそれで分析しても面白いのですが。

実売データとかが取れていないのであれば、まずはそちらを整備するべきでは?と感じたので、一旦お断りさせて頂いたということもありました。

大阪ガスの河本さん(※大阪ガス情報通信部ビジネスアナリシスセンター所長)が言っていましたが、「失敗する典型例は、現場の人がよくわからないけど、共分散構造分析がかっこいいからこれでやってくださいと言われるようなケース。実際分析してみると、共分散構造分析ができるようなデータではない。」

私にもよく似たようなことがあります。属性データが大量にあるのでリコメンデーションをやりたいと言われて、データを見たら属性データは性別しかなかったのです。

また、ある企業ではデータの縦幅(※顧客数が多いと言う意味)はありましたが、実はそのお客さんは商材が30点くらいしかないのです。それではクロスセルと言われても分析のしようが無いですよね。

例えばアマゾンみたいに商品数が何百万点もあれば良いのですが、分析に適したデータが無ければ分析はできないわけです。それでも現場が「なんでできないんだ?」と怒られているケースも多々あります。

網野:

よくありますよね。私も前職時代にはよく散見しました。笑

営業が中身をしらないまま、かっこよいふれこみだけで商談を進めて来てしまうのですよね。

最近は情報過多の時代ですから、「◯◯分析」と言う言葉が先行して行きますよね。

工藤さんはそういったお客様に対して、データ活用にて事業や経営の高度化につなげていくために、どうやって進めていっていますか?

工藤:

私は2つのパターンがあると思います。

一つ目は、頭のいい人が近似モデルを作るやり方です。でも、人間の頭にも限界があります。

そこで、二つ目はデータマイニングで仮説を作ると言うやり方です。赤池弘次先生や林知己夫先生などが言われていた探索的データ解析ですね。

探索的にデータマイニングを活用して行くやり方で、データを探ってそこから仮説を立てるアプローチもあると思います。

最近はこちらのデータマイニングだけが独り歩きしてしまっているように感じます。本来であれば近似モデルを意識しながら、それでも俯瞰的に視覚化して見ることの重要性や、データマイニングにより抽出した結果を近似モデルの変数に利用するといったものもあるはずです。

そういった背景も把握せずに、「なんかデータマイニングってすごいらしいから導入したい」という形になると、必ずプロジェクトは頓挫してしまいます。

つまり、一つ目と二つ目のバランスが大事だと感じています。

そこで、最初の質問に戻る訳ですが、私がこの本を書いたのは、そういったバランスが重要だと伝えたかったからに他なりません。

でも、実はこういう話って非常に難しいじゃないですか。

網野さんなら、今までにさんざん経験しているから、この話からいきなり入っても、理解してもらえると思うのですが。

個人的には、この点は本当に重要だと思っているので、当初、冒頭の1章目に書きたかったのですが、諸事情あって最後の章になってしまいました。笑

「1章目は読者の気をひくために、もう少し分かりやすい話にしないと読み手が脱落してしまう」と。笑

ですので、5章の”データサイエンスで未来を切り開け!”とかを見て頂くと、1章の”「データを操る力」を使いこなせ!”とはトーンが違って「特徴的次元空間」などの突っ込んだ話になっています。

実は、5章とかで書いている「バランスが大事」という内容が、伝えたいこととしては先にあって、それがきっかけで書き始めた本なのです。

網野:

なるほど。

確かに5章は、「特徴的次元空間」とか、「一専多能の優位性」とかで、いきなり最初に読み始めるにはちょっと勇気と努力が必要ですからね。笑

私もバランスはとても大事だと思います。例えば、システムにしても、集中型と分散型のどちらが良いかと言う議論がありました。その時々の技術環境や使う側の状況に応じて、Pros/Consがあり、時代によってもどちらが良いかは異なりますよね。

組織論もそう。カンパニー制、事業部制などもしかり。「統治と放置」、「集中と分散」、「トップダウンとボトムアップ」。色々とありますが、それぞれに絶対的な正解はないですからね。世の中に1次元的な解は無い訳ですが、それでも、本は「どっちが大事」とか「絶対解はこれ!!」などと言い切らないと売れないですからね。笑

そういう点では、いきなり最初から、「バランスです」、「どちらも大事です」などと書き出すと、それは売れないでしょうから、出版社の言い分も分かります。笑

次の話題もバランスの延長になるのですが、最近のビッグデータ本などの潮流として「因果と相関」の話で、因果はいらない、相関だけ見れば答えは分かると言う話も出て来ます。確かに、分析の中には、因果関係まで考えずに、相関の結果だけを活用してしまう方が手っ取り早いものがあることも事実です。例えば、購買確率をロジスティック回帰により予測する場合は、いちいち説明変数を見て因果関係を推察していくよりは、まずはその数字を頼りに試しにDMを送ってしまい、反応結果を検証していく方が早いでしょう。でも、全ての分析結果に対して、因果はいらないと言われると相当に違和感がある訳です。

「ビッグデータ時代に因果関係はいらない。相関だけを見れば良いのである!」という主張も多い中で、工藤さんはどのようにお考えですか?

工藤:

探索的データ解析と近似モデルの話に近いと思います。

結論から言うと、私は因果と相関は両方あるべきと考えています。

ノーベル賞受賞者のアプローチを考えてみると、理論って基本的に基礎研究の上に確立された理論を学び、そこから応用へ入って行くわけです。

そこで営まれている行動様式を見ていると、例えば、ニュートン力学だろうが、量子力学だろうか理論的に踏み台になる理論があって、そこからブレークスルーするためにはきっと何か間違いがあるだろう、と”とことん”考えて、ほころびを見つける。それこそが、創造性の源泉であると考えています。

俯瞰的にデータだけをみていくデータマイニングみたいなアプローチと、理論的な支えとなる「一般線形モデル」みたいな踏み台を用いる2つのアプローチがあるとします。

そのどちらも重要であり、「行き来」することで高度化されていくのだと考えています。

ノーベル賞受賞者はそういうアプローチをしていると感じますし、私が尊敬している赤池先生も京都賞を受賞した時に同じような話をされておりました。

例えば、マッキンゼーの「発想法」のような本が多く出版されています。発想は素晴らしいことですが、「発想」だけが注目されて、それだけで勝負しようとする人が出てくるとなると、それは問題だと思っています。

発想だけで済むなど、ビジネスがそんなに簡単なはずがなくて、網野さんも分かると思いますが、アクセンチュア用語で言う所の「ミリミリ感」ですよね。つまり、現場の示唆やミクロ感が絶対にあるはずだと思っております。こういったことは全てバランスが重要だと考えています。

網野:

先ほども言いましたが、本には「両方必要、バランスが大事」と書くと、シンプルな結果を求めている読者からすると「おいおい、どっちだよ」となってしまうのですよね。笑

きっと、「発想法」をテーマにしている方々も、当然論理的思考とかロジカルシンキングとか構造化のスキルは前提として当たり前に重要であり、そういった前提の上で発想法が大事だと述べているのですよね。

工藤:

そうなんですよね。

だから出版社に「一言で言いきって下さい」と言われても、正直非常に困ってしまうわけです。そもそも一言で言えないですし。「これを覚えれば統計はOKです」というものを出してくれと言われましたが、この本を書いた目的は、色々な理論や手法がある中で道しるべになればいいなと思ったからです。

本の中で「Structured Data Science Model:SDSM」という名前を付けた図があります。複数の学会で提唱している異なる理論をひとつの枠組みで構造化したものです。

しかし、当然ながらこの図で全てを説明するのには無理があります。分布の前提がないノンパラメトリックの話が表には入っているし、一般的にSASを使うような人たちが言う頻度論統計の話もあれば、ベイズ統計も扱っています。機械学習などの統計とか分布とは関係ない話も書いています。そうすると、統計において「これだけ覚えれば大丈夫」というものは前提を置かないと当然書けないわけです。

本の中では記述統計学の基本として分散と標準偏差を取り上げています。これは頻度論統計の代表例になりますが、世の中はそれだけではありません。このSDSMなどは場合によってはアマゾンレビューなどで辛辣なコメントが寄せられそうとは覚悟していますが、今までこのようなものを1枚の図にまとめた人がいなかったので、一石を投じる意味でもあえて、「えいっ」と出してしまいました。世間からの批判は甘んじて受けるつもりですが、この箇所については、私としても、あえて、勇気を出して一歩踏み込んだという点を強調したいところです。笑
正直やっぱり書ききれないですよ。。。

網野:

はい、しっかり伝えます。笑

工藤:

でも確かに言い切らないと道に迷うというもわかるのです。巷の本の中ではあまり整理されていない事も事実ですから。

実はこの本に関して大阪ガスの河本さんに言われて嬉しかったことがあります。「道に迷っている人が多い中でこの本を読めば、まず抑えべきポイントや考え方が取り扱われているので、道しるべになる」と言ってもらえました。
まさに、道に迷うデータサイエンティスト達の指針になれば良いと思っています。

次号に続きます

————————————
連載記事一覧

GiXo Network|インタビュー記事リストはコチラから

SERVICE