hylomによる
2008年11月27日 14時30分の掲載
東京都千代田区千代田1-1-1、部門より。
東京都千代田区千代田1-1-1、部門より。
People to People Communicationsから、疑似個人情報の無償ダウンロードサービスがはじまりました。(以前から有償のものはサービスされていたようで、無償サービスは疑似個人情報3000件まで、非営利目的での使用のみ可、とのことです。)
ITmediaの記事によると、架空の名前や住所、生年月日などで構成した個人情報リストを提供する。自治体などが公開している統計データの分布を正確に反映させており、実在の情報ではないものの「本物と区別することができないほど」そっくりだとしている。
とあるので、試しにダウンロードしてみました。
疑似個人情報はCSV形式で、確かにぱっと見ると本物の個人情報のようにも見えますが、家の近くの住所を調べてみた限りでは、疑似個人情報に含まれている住所は実在しない番地になっているようです。
(たとえば○○町3丁目 まである地域だと、4丁目以降になってたり。家の近くの地名しか見ていないので全部がそうとは言い切れませんが。ダウンロード元のFAQのページによると実在の住所はほとんど発生せず、本物の個人情報と同じレコードが含まれる可能性は極端に低いようですね。電話番号もデータ生成時には存在しない電話番号にしてあるそうです。)
テストデータとして使用したり、ダミーデータとして置いておく(不正アクセスした人がこっちを盗んでいくことを期待?)などの使い方が提示されていますが、これを使ったシステムが「外から疑似個人情報データだけが見える」状態になっているのを発見され、先に掲示板で公開されたりすると、変な騒ぎになったりするのかもしれませんね。
関連ストーリー
早稲田大学のハラスメント相談リストが流出 51 コメント
擬似個人情報は (スコア:4, 参考になる)
なんちゃって個人情報 [kazina.com] をよく使っていました。
コメントを書く
名前 (スコア:2, おもしろおかしい)
宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)
コメントを書く
Re:名前 (スコア:2, 参考になる)
疑似個人情報とは? [start-ppd.jp]に書いてありますね。
住所、年齢、性別、性、名ですね。
住所の分布が、自治体の人口比率と同じ比率になっている。
年齢と性別の比率が人口統計に基づいている。
性による性別と年齢の比率が、日本人の姓トップ10000位の人口比率に基づいている。
名前は、生まれた年代別の統計データで決定している。
だそうです。
>宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)
住所別の性の比率は書いてないので、宮崎県に黒木さんがいっぱいいるかは不明。
年代別に名前は違うらしいので、聖子さんやDQNネームは反映してる可能性が高い。
コメントを書く
親コメント
Re:名前 (スコア:2)
住所、年齢、性別、「姓」、名
ですよね。
念のため修正。
コメントを書く
親コメント
わかった! (スコア:2, おもしろおかしい)
パターンが使えるようになるんですね!!
これで500円払わずにすむよ!!
※すぐバレます
コメントを書く
Re:わかった! (スコア:2, 参考になる)
我々の努力 [slashdot.jp]を打ち破るほどの高度な攻撃でした。
◆IZUMI162i6 [mailto]
Free or not Free, that is the question.
コメントを書く
親コメント
ダウンロードしてみました (スコア:2, 参考になる)
コメントを書く
Re:ダウンロードしてみました (スコア:2, おもしろおかしい)
コメントを書く
親コメント
Re:ダウンロードしてみました (スコア:2, 参考になる)
ダウンロードファイルはランダムに選ばれるのでしょうか。
郡部(町村)がないのと、かな市名が結構あるのは共通してるようです。
# 「鹿児島県志布志市志布志町志布志・・・」を含むデータをゲットした私はラッキー?
匠気だけでは商機なく、正気なだけでは勝機なし。
コメントを書く
親コメント
テストデータとして使用かぁ (スコア:2, 興味深い)
本当の本当に本物のデータか、絶対ありえないような極端なデータか
どっちかじゃないですかね。
本物っぽいんだけど、実はギリギリ違うってのは
閾値的なチェックになる可能性はないでもないですか
コメントを書く
自分の名前を見つけた人 (スコア:1, 興味深い)
コメントを書く
Re:自分の名前を見つけた人 (スコア:5, おもしろおかしい)
#私は見つけられなかったのでとりあえず大丈夫です。
コメントを書く
親コメント
だれが擬似個人情報つかえるの?とコマドリはいいました (スコア:1, 興味深い)
って、あんまり使いどころが思いつかないんだけど・・・
# 非営利団体が使うシステムでも、金払って外注したら使えんし
コメントを書く
Re:だれが擬似個人情報つかえるの?とコマドリはいいました (スコア:2, 興味深い)
コイツを売って対価を受け取るのは不可ってのはわかるけど、
対価を受け取って開発しているシステムのテスト用、ってのも、商用に入るのかな。
コメントを書く
親コメント
情報漏えい対策 (スコア:1)
・・・とかはだめ?
コメントを書く
逆に (スコア:1)
とあるので、
自分の名前で検索し、仮にそこが実在の住所だったとして、
そこに引っ越して、謝罪と賠償をうんたらかんたらとか起きなければいいですけど。
# ねーよ
コメントを書く
example.com (スコア:1)
メールアドレスがすべて例示用ドメインになっていますから、
知ってる人ならすぐ気付くでしょうし、
知らない人でも「なんで全部example.xxxなの?」と思うような気がします。
電話番号は、通信事業者に割り当て済みの番号領域かどうかなんて
パッと見は分からないでしょうが。
コメントを書く
実在しない? (スコア:1)
「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」「木の葉を隠すなら森の中」 [start-ppd.jp]って言ってるけど、
隠したいものは木の葉じゃなくて小判じゃないの?
コメントを書く
こんなもの使わなくても (スコア:1, おもしろおかしい)
コメントを書く
Re:本当に疑似? (スコア:1)
AVG anti-virus data base out of date
コメントを書く
親コメント
Re:本当に疑似? (スコア:2, 参考になる)
>Q. 生成した電話番号が、実在の電話番号と一致することはありますか?
>A. 生成時時点で一致しないことを確認しております。
>電話番号の生成には、総務省が通信事業者に割り当てていない番号領域を利用していま
す。(以下略)
コメントを書く
親コメント
Re:部門名 (スコア:3, すばらしい洞察)
ずっと旅行中と言うことになっているらしい。
コメントを書く
親コメント
Re:本当に疑似? (スコア:2, 興味深い)
>少々の違いならば、届いちゃいますよね・・。
うちなんて住所も名前もあってても、間違えて届いちゃいますよ!
配達記録のクレジットカードが郵便受けに入っていたときには、
誘惑に打ち勝つのに苦労しました。
コメントを書く
親コメント
Re:同姓同名の割合、、 (スコア:1)
その中で同姓同名は表記ベースで3組、読みまで一致しているのはわずか1組でした。
これまでの人生で2回も同姓同名と遭遇しているとは、「平均よりマイナーな氏名」
どころか、実はかなりよくある氏名なのでは?
コメントを書く
親コメント