データ提供時のマナー(Lesson2) ~データファイルのレイアウトは変えない~ | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

データファイルのレイアウトが変わるとデータ分析システムが壊れる場合がある

データ分析を依頼する場合、依頼者と分析者が、お互いに気持ち良く仕事をするためには、”データ提供時のマナー”が必要です。今回は、マナーの中で最も重要な”暗黙のルール”ともいえる”データファイルのレイアウトは変えない”マナーについて、説明します。

データファイルを取り込む作業について

最初に、マナーの重要性に気付いていただくため、データファイルの取り込み作業について説明します。
データ分析を行う時、依頼者から受取ったデータファイルから直接データ分析は行いません。データ分析に最適な型に形に加工し、DBに登録します。これは「データクレンジング」という工程で、専門の技術と処理時間が必要とされるため、非常に多くの開発期間が必要とされる場合があります。そして、この「データクレンジングシステム」をデータファイルのレイアウトに合わせて、一つ一つオーダーメイドで作成しています。

データファイルのレイアウトが変わるとデータクレンジングシステムを作り直し

データクレンジングシステムでは、項目の並び、文字数、型などの項目について、緻密に設定しています。そのため、ちょっとのデータファイルのレイアウト変更が、大きな障害へ繋がる場合があります。
例えば、CSVデータの場合、項目の並び順で「1番目は管理番号、2番目は売上日、3番目は売上時間...」などのように設定しています。このデータファイルの「管理番号」が「売上時間」の後ろに移動しただけで、「管理番号」と「売上時間」のデータ処理時にシステムエラーが発生したり、間違ったデータ分析を行ってしまう恐れがあります。
このような障害が発生した場合、原因特定やシステム改修に時間を使ってしまい、本来注力すべきデータ分析が行えず、納期が遅れる場合があります。

データファイルのレイアウトを変えない工夫

データ分析用のデータファイルを作成するのは依頼者側でしか行えません。そのため、依頼者側の最も重要な作業になっています。決して難しい事ではありませんので、下記の事項について注意をするよう心がけることが必要です。

  • データファイル作成処理は同じものを使いまわす
  • データファイル作成時に取得できない項目は”0″や”空文字”を代用する
  • データファイル提供前に前回のデータファイルと軽く見比べる

また、”データファイルのレイアウトは変えない”マナーではありませんが、「定期的に出力するデータファイルの場合、前回と取得期間をかぶらせない」ようにしてください。売上などの履歴情報で、同じ情報を複数回受取った場合、気付かずに分析処理対象に含んでしまい、誤った分析結果を出してしまう恐れがあるからです。

データファイルのレイアウトを変える場合は事前に連絡をする

データ提供時にデータファイルのレイアウトを変えないのがベストです。しかし、データ分析を行っていく中でデータ項目を増やす場合や、依頼者側のシステム変更などで止むを得ない場合は、事前に分析者に連絡を行うのがマナーです。事前に分かっていれば、データクレンジングシステムの改修スケジュールも立てられますので、スムーズにデータ分析依頼を行うことができると思います。
また、データファイル中の区分やコード内容が変わる場合も、事前に新しい区分一覧やコード一覧などの「マスタデータ」を連絡をお願いします。
【連載記事:データ提供時のマナー】
Lesson1:お品書きを付ける
Lesson2:データファイルのレイアウトは変えない (本稿)
Lesson3:機密情報/個人情報を渡す場合のお約束
Lesson4:データファイルのサイズと形式と転送方法に注意する

連載/関連記事リスト:データ分析のお作法
SERVICE