データ構造の設計=分析の道筋づくりが成功の鍵:ミスプリベンション in データ分析(5)

AUTHOR :   ギックス

データの構造を最初に考える

データの構造とは

データの構造を最初に考えるということは、要はデータ分析の設計図を作りましょうということです。そこには基本お作法があります。その基本お作法をしっかり押さえてデータ構造を用意するとミスに気が付くことができます。(設計図のない家作りでは、なにがミスかもわかりようがないですよね。)

基本お作法

基本お作法1:データフローの作成

データ分析をする前に、どのようなデータから、どのような分析ファイル・シートを作り上げていくのかの“地図”とも言うべきデータフローチャートを作りましょう。もちろん手書きの図表でも構わないですが、ちゃんとどのデータからどんなデータを作り、そこに何を組み合わせて最終的にどんなデータセットからグラフにするのかを書き込んでください。
データフローチャートをしっかり作成しておくことで、大きく3つのミスプリベンションが可能です。
1)分析の全体感が分かるので、データや計算の抜け漏れを回避できる
2)後から修正するとき、どこに何を盛り込めばよいか分かる
3)他人に引き継ぐ時・説明するときもスムーズ
5-1
特に2は、前回「ミスプリベンション in アナリティックス(4) そのゴールは本当にゴールなのか」でお話しした通り、どれだけ想像力を働かせたシートでも必ずといっていいほど、追加で盛り込まなければならないデータ・分析が生じることがあります。その時に戸惑うことなく、手戻りもせずにスムーズに分析を発展させるには必要不可欠な要素の一つとなります。

基本お作法2:インプットとアウトプット

データフローチャートで出てきましたが、データテーブルを分割していく上で、元データのテーブル、変数用のテーブル、結果用のテーブルは必ず分けておくべきです。(PPT用の結果グラフもできれば別テーブル上に分けておくべきです。仮に同一シート内に記載するうえでもデータを記載しているエリアからは分けておく)
そのようにデータを分けていくことで、例えば新たな月のデータがインプットとして追加されるときや、新たに提供されるデータから何らかしらの変数を作成し、結果テーブルに合わせなければならないときなど、全てのデータを同一テーブル上で持っているよりもフレキシブルに分析が出来るというメリットが生じます。また、データを種類別で分けておくということは、わかれた後のデータでは同種同形のデータが存在することになり、異種のデータを発見できるというミスプリベンションに繋がります。
また、アウトプットを出力する為の鍵となるデータテーブルは1テーブルに一度集約し、そのテーブルから複数のアウトプットとなる表、グラフ、サマリーテーブルなどを創り出せるようにしておくと、たとえインプットが変わっても、変数が増えても、アウトプットを出力する為の鍵となるデータテーブルを変更するだけで、それ以降の分析は全く同じ作業(自動更新機能があれば、クリックひとつ)でアウトプットの変更が可能です。不必要な作業を極力減らしていく仕組みにすることもミスプリベンションでは大切なことの一つです。

基本お作法3:データテーブル(シート)の“作り”の原理原則に沿う

データ分析ファイルのデータテーブル(Excelではシートと呼ばれるもの)の1つ1つにおいて、“作り”の原理原則に則った構造を構築することがミスプリベンションの基本となります。(日ごろからデータベースを触っている人にとっては当たり前の内容なので、このお作法は読み飛ばしてもらっても構いません)データ分析に当たって、タイトル行が一行であることや、データ以外の情報が入り込んでいないことは、そのファイルを元にした分析を行っていく上では至極当たり前と考えてください。表計算ソフトに馴染んでいる方は特に、様々な情報をデータシートに入れてしまいがちで、縦と横のデータ構造を無視しがちです。インプットであってもアウトプットであっても、基本はタイトル行が1行でデータがそのあとに続いている形を保持してください。
5-2_format変更
同列異データ、同行異データは避ける
 
聞いてみれば、「なぁんだ。当たり前のことじゃないか」という印象を受ける基本お作法ですが、これを「俺はよくわかっているから応用しているんだ」という人ほど、実に単純なミスを気が付かないことが多く、しかもそのミスを「大したことないミス」と考えがちです。

些細なミスで甚大な被害が生じることを肝に銘じる

本連載を読んでいる方には、どうか理解して頂きたいのは、ミスプリベンションin分析(2)でもお伝えしたように、その些細なミスで甚大な被害が生じることがあるということです。それは具体的に分析の結果、何億円損したか、ということではなく、あなた自身の仕事への信頼感が低下するということです。データを扱う以上、大なり小なりミスは生じます。そのミスを自分自身で気が付くことができれば、ミス予防ができたということであり、致命傷を負う前に対処できますが、基本作法から外れ、自分では気が付かないところでミスを生じさせており、しかもそれを大したことが無いと思うようになっているとしたら、知らないところで信頼を失っていると考えなければなりません。
 
最後は、脅迫めいた話になってしまいましたが、次回=最終回では、ミスで致命傷を負う前のリチェック機構の作り方に関してお話しします。
 
連載記事リスト:「ミス・プリベンション」in アナリティクス

SERVICE