データ分析が正しいことを証明するための”間違い”の報告 | データ分析のお作法

AUTHOR :   ギックス

3.2k

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

どうしても解決できないデータの異常値はデータ分析の序盤に報告すべき情報

データ分析は事前に仮説を立てて、合計値や最大値、リフト値などを算出して、仮説が正しいかの仮説検証を行います。しかし、データ分析は、テストの問題のように綺麗な情報から1つの正解が求められるものではありません。時として、大量のデータから異常値を排除し、そこからデータ分析をする事があります。今回は、この「異常値」をデータ分析の成果として報告する重要性についてご説明したいと思います。

分析対象データに異常値が発生する状況

データの「異常値」は、決して特別な状況で発生する物ではありません。売上やアクセスログなどの日々の情報を蓄積するデータについて発生する可能性はあります。
例えば、従業員のICカードの入退室による勤怠データの分析の場合、退室時にICカードをかざし忘れた場合や、誤って複数回かざした場合は正しい勤怠時間の解釈が行えません。また、スマホのソーシャルゲームのアクセスログ分析の場合、リセマラ(参照:ソーシャルゲーム分析におけるリセットマラソンの影響)やブースト施策(参照:ソーシャルゲーム分析のブースト施策の扱い)を行ったアクセスログは、他のアクセスログと行動目的が異なるため、異常値として排除する必要があります。
この様に業種や業態、目的によって「異常値」になるデータは異なり、そのデータを作っている起点に人間の意思が入っていれば「異常値」が発生する可能性は存在します。

異常値のデータの排他報告はデータ分析の前提条件として報告する

データ分析の報告として、ワードなどのドキュメントやパワポ、BIツールなどでストリー立てて報告することがあります。この時、異常値のデータの排他報告は、序盤に前提条件として報告する必要があります。
何故なら、異常値のデータの排他は全てのデータ分析レポートの母数のデータとなるため、序盤に報告していないと分析者と分析結果を聞く人の分析対象データの範囲の認識が異なり、最後まで認識がぼやけた状態で終わってしまう場合があります。そのため、必ずデータ分析報告の序盤には「データの全体 - 異常値のデータ = 正常なデータ(分析対象データ)」を示すレポートが必要になります。
また、異常値のデータに関しての報告が序盤にあれば、仮に異常値の認識が誤っていた場合、それ以降の分析結果が誤りになるため、無駄な分析結果の報告を行う必要がなくなります。(この様な状況は発生しない方が良いのですが)
そして、異常値のデータの排他報告は、例え業界標準や関係者間での共通の認識でも必ず行う必要はあります。必ず行うことで、その分析レポートを見た誰でも理解できるようになり、データ構造に詳しくない営業職の担当者などにも理解できるようになり、また業務引き継ぎなどもスムーズに行えるようになります。
この様に異常値の報告は、僅かな手間と心遣いで得られる効果は非常に大きいです。

連載/関連記事リスト:データ分析のお作法

 
 

SERVICE