データ提供時のマナー(Lesson4) ~データファイルのサイズと形式と転送方法に注意する~ | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

複数データファイルは一定の単位に圧縮して、適切な方法で提供する必要がある

データ分析で使用するデータファイルは、数、サイズ共に膨大な量になる事は珍しくありません。これらのデータファイルを圧縮することで、提供方法のバリエーションが増え、データ受取側も受け取り易くなります。

ファイル圧縮を行うとファイルサイズは1/10以下になる

CSVファイルやXMLファイルなどのテキストファイルは、半角1文字を1バイトとして記憶しているため、文字の多さに比例してファイルサイズが大きくなります。そのため、1度にデータ提供するデータサイズが1GBを超えることもあります。これらのテキストファイルは、ファイル圧縮を行うと1/10以下になります。そのため、元データ10GBのファイルでも、ファイル圧縮後にはCD1枚に記録することが可能になります。

ZIP圧縮が標準圧縮形式

ファイル圧縮の形式として、ZIP圧縮が望ましいです。なぜなら、ZIPファイルは、WindowsやMac OS、LinuxなどでOS標準機能として解凍できるためです。WinRARや7zは、圧縮率が高いなどのメリットがありますが、解凍には専用のツールのインストールが必要になるため、データ受取側で受入の準備が必要になる場合があります。また、ZIP圧縮は、解凍時にパスワード設定ができるため、簡易的なセキュリティーを設定できます。

圧縮に向かないデータもある

最もファイル圧縮に向いているのが、テキストファイルです。その反面、圧縮に不向きなデータは、JPEGデータやPDFデータなどです。これらは、最初から圧縮された形で登録しているため、ファイル圧縮を行っても殆どサイズは変わりません。全てのファイルが、圧縮すればサイズが小さくなるわけではありませんので、ご注意ください。

圧縮データのファイルサイズによってデータ転送方法を選択する

前回、データ提供する”ルート”に触れました。その中で最もセキュリティーが高く、かつ、確実にデータ受取側にデータを渡せる方法は、暗号化が行える外部記憶装置での直接のデータ提供だという事は間違いないですが、それ以外のインターネットを介して、データを転送する時のポイントについて解説します。

メールのファイル添付

メールのファイル添付は、ビジネスで最も多く使われているデータの転送方法です。誰でも使えて便利ですが、添付したファイルサイズが大きくなるとファイルが送れなく場合があります。これは、データ提供側、または受取側のメールプロバイダの容量制限によるもので、ある一定以上のファイルを送れないようになっています。そのため、10MBを超えるようなファイルは、メール添付しない方が得策です。もし、メール添付してしまった場合は、別途、電話やメールでファイル到着の確認を行った方が良いと思います。
また、自己解凍式の圧縮ファイルは、メール添付で送れない場合があります。それは、メールの受取側のPC、または、プロバイダで実行形式(拡張子が*.exe、*.bat、*.vbaなど)のファイルは、コンピュータウィルスとして判断され、ウィルス駆除ソフトで消されてしまう場合があるからです。このようなファイルは、再度、ZIPファイルに圧縮、または、拡張子を変えることでメールで送信できる場合があります。

ネットワークストレージを使ったデータの受け渡し

メールでファイル添付できないファイルサイズのデータは、インターネット上のネットワークストレージストレージを仲介して、データの受け渡しを行う場合があります。ネットワークストレージストレージには、Dropbox、Google Drive、Amazon S3などがあります。これらのクラウドストレージのアクセスには、IDとパスワードが必要になるため、特定の人間しか見ることは出来ません。また、Amazon S3は、IPアドレスの制限を行うことができるため、データを送受信できる場所も制限できます。

メール添付は10MBまで、それ以上はネットワークストレージを使う

今まで説明してきたとおり、データ送受信方法について、特に決めがない場合、データファイルはZIP圧縮を行いメール添付するのが一般的です。10MB以上のファイルを頻繁に受け渡しが必要な場合、データ提供側と受信側の双方が相談して、ネットワークストレージを選定するほうが良いと思います。

データ提供は相手を思いやる心が重要です

今まで4回に渡って、”データ提供時のマナー”について、説明してきました。ほかにも”マナー”は、沢山ありますが、全ての”マナー”で共通することは、データを受け取る人の思いやる心が重量です。データを受領しやすい方法はどんなものか? データについて説明した方が良いか? 相手が扱いに困るデータを渡してないか? などを考えてみましょう。データ提供がスムーズに行えれば、データ分析により多くの時間を使えるため、良い分析結果が返ってくると思います。
【連載記事:データ提供時のマナー】
Lesson1:お品書きを付ける
Lesson2:データファイルのレイアウトは変えない
Lesson3:機密情報/個人情報を渡す場合のお約束
Lesson4:データファイルのサイズと形式と転送方法に注意する (本稿)

連載/関連記事リスト:データ分析のお作法
SERVICE