データが「一意となる」とは:そのデータが”ユニーク”だと言い切るための「キー」があること|データ分析用語を解説

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

データから一意となる項目を判断しないと正しい集計が行えない

データ分析を行う上で、データの一意となる情報を常に把握しておく必要があります。データを一意にするデータ項目は1つとは限りません。複数の場合もあります。

データが「一意となる」とは

「一意」は「意味や値が一つに確定していること。」という意味です。データの一意とは、大量にあるデータから、1つの情報が特定できる状態を意味します。また、データ分析の中で「一意性があるテーブル」とは「一意になる情報をキー情報を保有したデータ群(テーブル)」を指します。(参考:データベースのテーブルとは)

単一項目でデータの一意を判断する

単一項目でデータの一意を判断するものとしては、会員番号、運転免許証番号、クレジットカード番号などがあります。ただし、氏名は同姓同名が存在する可能性があるため、一意とはなりません。基本的に一意となる情報は、氏名や商品名など人間が判断して付けた名前ではなく、機械的に付けた番号やコードになります。
余談ですが、個人を判断する情報として、DNA情報が知名度が高いですが、一卵性の双子は同一のDNA情報になるため、個人を判断する情報にはなりません。日本では、全国民から個人を完全に特定する情報は「マイナンバー」ぐらいしかありません。

複数項目でデータの一意を判断する

会員番号のように、桁数が多く、機械的に重複しないように割り振られた情報の場合は、単一項目でデータを特定できますが、桁数の少ない伝票番号では、データを特定できません。それは、桁数が少ないため、伝票番号を巡回して使用している場合があるためです。この場合、下記のように会計時間と伝票番号でデータを特定できます。伝票番号と会計時間で一意となる理由として、同時刻に同じ伝票番号がオペレーションで発生する可能性がないためです。susizanmai

一意となる項目がない

一意となる項目がないデータとして、一番代表的なデータは、ログデータです。ログデータは、発生タイミングで作成されます。ログデータには、ログ(行)が記載された時間が含まれますが、同じ時間に複数のログが記載されることもあります。このような一致となる情報がない場合、ログファイルの行数を「一意となる」情報とする場合があります。

一意となる情報を判断するのは難しい

このように一意となる情報は、会員番号のような1つの項目で判断できるデータもありますが、複数項目から判断するデータや、一意となる項目をプログラムなどで意図的に作成が必要なデータがあります。
データ分析用語:索引

SERVICE