アカウント名:
パスワード:
原文読まないと分かりづらいですね。
・100万人、3ヶ月分の匿名化されたクレジットカード履歴がある ・ここで、(カード履歴とは別に)「エヌ氏は何月何日にこの店に行った」という情報をp個知っているとする ・先のカード履歴からエヌ氏の履歴を特定するために最小のpはいくつか? という調査を行ったところ、 ・p=4、つまり4個の情報を知っていればカード履歴の山から個人の履歴が特定できる という結論が得られた、ということのようです。
この結果から、筆者らは、カード履歴をビッグデータとして扱う際に名前や住所を伏せただけでは十分な匿名化ができたとは言えないのではないか、という問題提起をしているようです。
p個ってのが単一グループ企業のものだった場合でも成功するのであればかなりの脅威ですねでもp個の情報が偏っているという前提があると精度が90%から大きく下がるだろうという気もする
しかし名前や住所以外に何を伏せれば有効なのかって言うとうーん・・・
>#余談ですが、記事の「個人を一位に特定できた」の「一位」はリンク先では「一意」となってるようです。ストーリー by hylom
日本語訳が悪いのかもしれない。原文はこれかなhttp://www.sciencemag.org/content/347/6221/536.full?sid=9e230948-955e-... [sciencemag.org]あとで読んでみよう。
自分も圧倒的に通販利用が多い。だいたい同じようなサイト・商品ジャンルを繰り返すことになるから、これはこれで絞りやすそう。
# Amazonでよく買い、楽天では一切買わず、海外のデジタルコンテンツをPaypalでよく買うのは、たぶんこいつです。
論文をちょろっと読んだ感じでは店舗からの情報で構築されたクレジットカードの利用履歴データベースがある。ユーザはIDで記録されていて名前はわからない。ある人(たとえばScottさん)のカード利用行動(何月何日にどこで買い物をした)の情報をいくつか入手できれば上記のDBからその行動に当てはまる人を検索するここで、DB上での彼のIDがわかる。という話のようですよ
特に珍しい話でもないのではなかと
> 特に珍しい話でもないのではなかと
100万人の利用履歴が3ヶ月分ある場合はたかだか4件の追加情報があれば,100万人から1人を特定できることを具体的に数値で示した点は新しいと思います.
意味的には,単純な統計の話で,確率を計算しただけですが,それを珍しくない,というのは後出しジャンケンと一緒です.
バカッターだって似たようなものだし、ちょっと本気出せば個人なんてのは簡単に特定できるものなのでしょう。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
Stay hungry, Stay foolish. -- Steven Paul Jobs
正直言ってよくわからない (スコア:1)
だとすれば、クレジットカード以外に個人の行動データが既にどこかで記録されていて、それと照合をかけると言うこと?
クレジットカードのデータよりも、そちらの方がよほど怖い気が……
私の過去一年のクレジットカード利用履歴は全て通信販売ですが、それでも特定されたらかなり怖い……。
#余談ですが、記事の「個人を一位に特定できた」の「一位」はリンク先では「一意」となってるようです。
Re:正直言ってよくわからない (スコア:5, 参考になる)
原文読まないと分かりづらいですね。
・100万人、3ヶ月分の匿名化されたクレジットカード履歴がある
・ここで、(カード履歴とは別に)「エヌ氏は何月何日にこの店に行った」という情報をp個知っているとする
・先のカード履歴からエヌ氏の履歴を特定するために最小のpはいくつか?
という調査を行ったところ、
・p=4、つまり4個の情報を知っていればカード履歴の山から個人の履歴が特定できる という結論が得られた、ということのようです。
この結果から、筆者らは、カード履歴をビッグデータとして扱う際に名前や住所を伏せただけでは十分な匿名化ができたとは言えないのではないか、という問題提起をしているようです。
Re: (スコア:0)
p個ってのが単一グループ企業のものだった場合でも成功するのであればかなりの脅威ですね
でもp個の情報が偏っているという前提があると精度が90%から大きく下がるだろうという気もする
しかし名前や住所以外に何を伏せれば有効なのかって言うとうーん・・・
Re:正直言ってよくわからない (スコア:1)
英語苦手なんですよねぇ……orz
改竄率が2位じゃダメなんでしょう (スコア:0)
>#余談ですが、記事の「個人を一位に特定できた」の「一位」はリンク先では「一意」となってるようです。
ストーリー by hylom
Re: (スコア:0)
・A氏のカード利用履歴から4件
・B氏のカード利用履歴から4件
を比較すれば、A氏とB氏が同一人物か否かを高い精度で判定できる、ということ。
逆に言うと、特定人物Aの買い物履歴(少なくとも4件)さえあれば、膨大なビッグデータの中から”同一人物と思われるデータ”を抽出することができそうだ、ということ。
Re: (スコア:0)
日本語訳が悪いのかもしれない。原文はこれかな
http://www.sciencemag.org/content/347/6221/536.full?sid=9e230948-955e-... [sciencemag.org]
あとで読んでみよう。
自分も圧倒的に通販利用が多い。だいたい同じようなサイト・商品ジャンルを繰り返すことになるから、これはこれで絞りやすそう。
# Amazonでよく買い、楽天では一切買わず、海外のデジタルコンテンツをPaypalでよく買うのは、たぶんこいつです。
Re: (スコア:0)
論文をちょろっと読んだ感じでは
店舗からの情報で構築されたクレジットカードの利用履歴データベースがある。ユーザはIDで記録されていて名前はわからない。
ある人(たとえばScottさん)のカード利用行動(何月何日にどこで買い物をした)の情報をいくつか入手できれば
上記のDBからその行動に当てはまる人を検索するここで、DB上での彼のIDがわかる。
という話のようですよ
特に珍しい話でもないのではなかと
Re:正直言ってよくわからない (スコア:1)
> 特に珍しい話でもないのではなかと
100万人の利用履歴が3ヶ月分ある場合は
たかだか4件の追加情報があれば,100万人から1人を特定できることを
具体的に数値で示した点は新しいと思います.
意味的には,単純な統計の話で,確率を計算しただけですが,
それを珍しくない,というのは後出しジャンケンと一緒です.
Re: (スコア:0)
バカッターだって似たようなものだし、ちょっと本気出せば個人なんてのは簡単に特定できるものなのでしょう。