名寄せとは?(3)~代表的なパターン~|データ分析用語を解説

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

名寄せにおける代表的なパターンです

今回は「名寄せ(なよせ)」という言葉に関する説明の第三回です。前回は名寄せ処理を行う上で頭の痛い問題である「表記ゆれ」について説明させていただきました。今回は実際に名寄せ処理を行ううえでの手順の一端を説明します。参考までに前回掲載した「名寄せ作業に利用されるキー」を再掲します。
[名寄せの判定として使われる一般的なキー]

  1. 氏名
  2. ふりがな
  3. 生年月日
  4. 性別
  5. 住所
  6. 電話番号
  7. 携帯電話
  8. emailアドレス

難しさの一端を

上記のようなキーで名寄せを行っていくわけですが、これらすべての情報が上記のA社とB社で一致することなど非常にまれです。なによりもこれらの情報が漏れなくデータベースに格納されているわけでもないのです。
このため一般的な名寄せ作業は「一致するパターンに優先順位をつけて判定する」という方法を採っています。この中で最も簡単な一致パターンは「上記1と7が一致した場合」です。携帯電話番号は転居などによる変更が発生しづらいので名寄せには有効なキーとなりえます。携帯電話の普及や携帯電話番号持運制度の導入によって名寄せ作業の精度は格段に向上しました。しかしこれほど理想的に名寄せキーがそろう場合も多くはありません。
その場合、他のパターンを用いて名寄せを行うわけですが代表的なパターンは「上記1~5が一致した場合」です。もちろんその際には前回説明した表記ゆれを考慮して一致判定を行います。おおよそ9割以上の一致率を求めるのであれば、この表記ゆれの吸収処理はかなり複雑なものとなることでしょう。
また名寄せ処理の難しさはその処理手順にもあります。名寄せ判定で「一致と判定されたデータ」はどんどんまとめられていきます。しかし「一致と判定されないデータ」は「次の一致パターン」で再度判定されることになります。そこでも一致と判定されなかった場合「また次の一致パターン」の判定処理に掛けられ、最終的に全てのパターンで不一致が確認された後にはじめて「不一致データ=新しいデータ」と認められるのです。これは非常に時間のかかる処理で、名寄せデータを処理する担当者にとって頭の痛い問題でもあります。
 
以上、これまで三回にわたって名寄せ(なよせ)作業についての説明をさせていただきました。

【連載記事:名寄せとは?】
  1. 「同じ人」をまとめる作業
  2. 表記ゆれについて
  3. 代表的なパターン (本稿)

データ分析用語:索引

SERVICE