データとは?:後から解釈し、理解できる情報のカタマリ|データ分析用語を解説

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

データとは「後から見てもわかる資料」

本日は「データ」という言葉を解説します。

データは資料です。でも資料はデータであるとはかぎりません。

そもそも「データ」とはなんでしょうか?wikipediaの記事を引用します。

データ(英: data。英語発音: [ˈdeɪtə] デイタ、[ˈdætə] ダタ、[ˈdɑːtə] ダータ)とは、基礎的な事実や資料をさす言葉。情報処理や考察によって付加価値を与える前提で集められており、基本的に複数個の事象や数値の集合となっている。個々のデータのことを英語では datum (英語発音: [ˈdeɪtəm] デイタム、データム)という。
引用元:wikipedia

また、その概念については、以下のように述べられています。

伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。与件または所与ともいう。data, datum(英語)はラテン語・イタリア語のdare(与える)を語源とする。中国語では「資料」または「数据」ともいう。
引用元:wikipedia

上記2つの文章をつなげると、「データとは、再度情報として解釈できるように符号化された資料である。」と表現できます。
ということは、世の中の資料には「データ資料=データ化されている資料」と「非データ資料=データ化されていない資料」があることがおわかりいただけると思います。
この二つを比較してみましょう。

データ化されている資料(再度情報として解釈できるように符号化された資料)の例:

日本国初代内閣総理大臣、伊藤博文さんの例を挙げます。
伊藤 博文
いとう ひろぶみ
1841年10月16日
周防国熊毛郡束荷村
1909年10月26日(満68歳没)
中国黒龍江省ハルビン市
資料が文字として残されているので再度情報として解釈が可能な状態になっています。これはデータ化されている資料といえるでしょう。

データ化されていない資料(再度情報として解釈できるように符号化されていない資料)の例:

中国南部、福建省福安市に少数民族であるショオ族の村があります。彼ら独自の言葉は文字をもちません。彼らの歴史や文化は歌によって現在まで「山歌」として歌い継がれてきました。これらの歌は歌い手が絶えてしまえば再度の解釈が不可能な状態になっています。これはデータ化されていない資料といえるでしょう。
また、日本の古典に「梁塵秘抄」(りょうじんひしょう)という歌謡集があります。第77代天皇の後白河天皇が編者としてたずさわった歌謡集で帝御自らも歌い手として楽しんだという記録が残っています(ちなみに2012年大河ドラマ「平清盛」の作中に、その物語のメタファーとして端々に登場します)。この梁塵秘抄ですが、歌詞は以下のように残っているのですが、歌謡のメロディーラインは失われてしまいました。

遊びをせんとや生れけむ、戯れせんとや生れけん、遊ぶ子供の声きけば、我が身さえこそ動がるれ。
引用元:wikipedia

これは、元々の”資料”の一部がデータ化されている一方で、資料の一部はデータ化されていない例といえるでしょう。(ちなみにドラマ「平清盛」の劇中で歌われる抄梁塵秘抄は現代風のメロディーがつけられて歌われています。)
データ分析用語:索引

SERVICE