データ受領時の”おもてなし”(Lesson5) ~受領データの確認を行う~ | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

人は誰でも過ちを犯すもの。データ受領時に最低限のチェックは行う

前回までの「データ受領時の”おもてなし”」によって、受け入れ態勢は整えることができます。そして、最後に実際にデータを受け取ってからの対応として、データ受領時のデータ確認について説明します。

何故、人は過ちを犯してしまうのでしょうか?

分析データの抽出・編集からデータ送付までを100%をシステムで行っている以外、どこかで手作業が入ります。その場合、100%の確率で正しいデータが受け取れるとは限りません。では、なぜ、人は分析データの作成を誤ってしまうのでしょうか? 下記は、定期的にデータ受領して分析業務を行っている場合の「データ提供元で発生しやすいデータ受渡時の失敗例」です。

  • 単純な分析データの作成ミス
  • 担当者不在時の代理人による分析データの作成ミス
  • 抽出元のシステム変更に気付かず、そのまま分析データを作成
  • 前回作成した分析データを送信

この様に単純なミスもありますが、システム変更などの外的要因によるケースもあります。そのため、いつ正しくない分析データを受取っても不思議ではありません。

受領データの確認ポイント

データ受領した分析データについて、毎回、全量を目検で確認していたら、非効率です。そのため、分析データをテキストエディタなどで開いて、軽く確認できるポイントについて説明します。

データの抽出期間の確認

定期的に売上などのトランザクション情報を差分で受け取っている場合、データ提供元の分析データの作成時に発生しやすいミスとして、データ抽出期間を間違ってしまう事あります。そのため、分析データの売上日時などが、前回、受領したデータの続きになっているかを確認します。これによって、同じ期間のデータを複数回データ取込するミスを防げます。
また、データ提供者が、誤って前回と同じデータを送付してしまった場合などは、ファイル名(ファイル名に作成日が含まれている場合)やファイル更新日などでファイルの新旧を確認できます。

データ項目の数と並びの確認

データ提供元の分析データの抽出作業をSQL命令実行などの手作業で行っている場合、または、抽出元システムに変更が行われた場合、データ項目の数と並び順が変わる可能があります。そのため、分析データを開いて、最初の数行でデータ項目の数と並び順を確認する必要があります。また、この時、最初の行にタイトル行があると項目の並び順を判断しやすいため、可能な場合はデータ抽出元の分析データ作成システムでタイトル行を入れて頂けるように依頼しましょう。

重複データの確認

商品情報や会員情報などのマスタ情報は、コードや番号で一意になる必要があるため、重複データが存在していないかの確認が必要です。特に最初のデータ受領時に確認が必要です。
重複データのチェックは、Excelの「重複の削除」機能を使用します。マスタ情報の一意となる項目だけを抜き出し、「重複の削除」ボタンをクリックします。もし、重複行があれば削除されるため、重複データの存在に気付くことができます。excel_thofuku

データ受領時の確認だけでなく、データ取込をミスらない体制が必要

これらのデータ受領時の確認を行うことで、分析用のDBへのデータ取込のミスを減らすことができます。しかし、これだけでは完璧とは言えません。
データ取込システムの中にチェック機能を入れる事や、DBテーブル項目のデータ型、桁数、ユニーク制約などで間違ったデータを登録できないようにする必要があります。また、データ取込処理前には、DBバックアップを取るなどして、ミスをしても戻せるようにする必要があります。(参照:ミスらないデータベースの処理方法)

データ受領時の”おもてなし”
連載/関連記事リスト:データ分析のお作法
SERVICE