コード値は"0"もスペースも意味がある!Excelでデータ編集を行う場合は注意が必要 | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

Excelでデータ編集を行う場合は、セルの書式設定を行い、CSV出力で実際のデータを確認する

一般的な事務作業の場合、表計算ソフトとしてExcelが多く使われ、このExcelに日々の売上情報や顧客情報、取引先情報などが蓄積されています。これらのデータの中でコード値については、適切な形で登録していないと、外部システムとのデータ連携時に関連するデータ同士が紐付かない事象が発生します。

コードは値と桁数で比較する

コード値は、異なるテーブルやシステムなどの外部情報と連結するための重要な情報です。大半のコード値は文字列情報で表現されいます。しかし、表現方法を「文字列」にしたことによって、数値情報に比べ多様な表現方法が可能になり、より複雑になってしまいました。例えば、3桁でコード値「1」を表現する場合、「1(単純に”1″だけ)」「001(先頭に”0″補完)」「1△△(後ろにスペース*補完)」など様々です。人間ならこれらのコード値は同じ意味と認識可能ですが、パソコンは「コードの値と桁数が完全に一致するコード値のみ同一」と判断します。そのため、コード値は厳密に登録する必要があるのです。code_sample
* スペースが見えるように「△」で表現しています

コード値の最適なExcelの書式は「文字列」

売上情報や顧客情報の入力先として。また、CSVデータファイルを取込んで(インポート)からのデータ編集ツールとしてExcelを使用することがあります。しかし、Excelの仕様によって、データを壊してしまう恐れがあります。それは、「全て数字で構成されたコード値(“001″など)に対して、入力時に数値と判断して数値(“1″など)に変換してしまう」Excelの仕様です。先に説明したようにコード値は、”001″と”1″を別物として扱ってしまいますので、変換が発生してしまうとデータが壊れてしまいます。
この現象を解決する方法として、コード値を入力するセルに対して「セルの書式設定」を「文字列」にしてください。これで先頭に”0″が入っているコード値を入力しても、そのままの文字列で登録できるようになります。excel_cell

ExcelからCSV出力を行いデータ確認を行う

このようにExcelの設定を行いデータ編集後は、作成されたデータを確認してください。しかし、Excel画面から見た場合、実際の値と異なります。なぜなら、Excelは、書式設定の表示形式を変更している場合があるからです。例えば、数字のカンマ付や小数点以下の四捨五入、日付の表示書式などです。これらのデータが、正しく入っているかを確認するためにCSV形式で保存して、メモ帳などで確認してください。これによって、不注意で入力した文字列の後ろの無駄なスペース文字なども発見できます。excel_save

データ分析を依頼する場合はCSVデータが好ましい

この様にExcelは、非常に多機能であるために、データの登録形式が固定できない欠点があります。この状態でExcelのデータ分析を依頼した場合、データ分析者はデータの理解に時間が掛かってしまいます。そのため、データ分析者の負担を減らすためにもCSVデータでデータ分析を依頼することをお勧めします。

連載/関連記事リスト:データ分析のお作法
SERVICE