
中国で10億人規模の個人情報が流出 60
ストーリー by nagazou
規模がでかすぎる 部門より
規模がでかすぎる 部門より
中国で公安当局が管理する10億人分の個人情報が流出したようだ。6月30日にハッカー向けWebページ「Breach Forums」に「上海国家警察データベースから中国国民10億人の情報が漏れた」と書き込んだことで発覚。その上で全データを2700万円で売るとしていた。(Bloomberg、日経新聞、iPhone Mania、時事ドットコム)。
このデータには中国人10億人の氏名や住所、出生地、身分証と携帯電話の番号、過去の犯罪歴が含まれる。販売対象のデータ容量は23TBほどあるという。サンプルとして公開された75万件のデータには、窃盗や家庭内暴力など、1995~2019年に警察が把握した事件の内容が含まれていた。報道機関により本物と確認されたものもあった模様。警察データベースという事もあり、警察に通報した人の名前や時間、通報された人と具体的な事件の内容もデータには詳しく記録されているという。またタレコミの元となっているソースによると、犯人はAlibabaのプライベートクラウドから情報が漏洩したと説明しているようだ(Zeyi Yang氏のツイート)。
このデータには中国人10億人の氏名や住所、出生地、身分証と携帯電話の番号、過去の犯罪歴が含まれる。販売対象のデータ容量は23TBほどあるという。サンプルとして公開された75万件のデータには、窃盗や家庭内暴力など、1995~2019年に警察が把握した事件の内容が含まれていた。報道機関により本物と確認されたものもあった模様。警察データベースという事もあり、警察に通報した人の名前や時間、通報された人と具体的な事件の内容もデータには詳しく記録されているという。またタレコミの元となっているソースによると、犯人はAlibabaのプライベートクラウドから情報が漏洩したと説明しているようだ(Zeyi Yang氏のツイート)。
Twitterで見かけましたが (スコア:3, 興味深い)
早速25万人分をサンプリングして人口ピラミッドを調査した人がいて、
「2020年の公式発表と大きく違う」ことが分かったようです。
出生率が尋常じゃないほど下がっており、総人口は14億ではなく約12.8億ではないかとの事。
#ソースは探して; 中国語のキャプ画像だった。
Re:Twitterで見かけましたが (スコア:1)
>「2020年の公式発表と大きく違う」ことが分かったようです。
中国共産党が国内事情をそのまま公式発表する理由は無いので、それで正しいかと。
Re: (スコア:0)
さらに突っ込むと中国共産党指導部が地方の状況をしっかり把握できているかも怪しかったり
(役人が正しい情報を取得できているか?と得た情報を上に報告しているか?という2重の意味で)
Re: (スコア:0)
いんや、しっかり把握してると思うなあ。
顔認識カメラを国中に設置して監視しているから、パーフェクト引きこもり以外はカウントできると思う。
Re: (スコア:0)
なるほど。
つまり、どうやらこの流出データはフェイクだと(棒
Re: (スコア:0)
そんな一割近くごまかせるもんなのか…?
いやでも確かに一人ひとり数えて確認なんかできんしな…
Re: (スコア:0)
觔斗雲で飛んでいかないと隣の家にも行けない田舎とか、逆にそのビルに何万人住んでいるのか誰も知らない都会とか。
#個人のイメージです
Re: (スコア:0)
そもそもそのデータが完全に網羅されていたとどうやって確認したのだろうか?
中国の僻地って下手すりゃ電気も通信も無いような所もまであったはずだが。
Re: (スコア:0)
それは「中国の人口はどうやって統計取っているんだ」というそもそもの話にも繋がる訳で。
経済成長率は各行政区が(目標達成するように数字を弄って)報告したのを積み上げた結果という話を聞きますしね。
Re: (スコア:0)
母集団が偏ってないかってとこが重要だからな。田舎と都市部じゃ違うだろうし。
#「日本のネット普及率は100% ※ネットアンケートによる調査」
Re: (スコア:0)
まとめブログですがこちら。
https://matomedane.jp/page/107587 [matomedane.jp]
Re: (スコア:0)
母集団に対して0.1%以下のサンプルサイズじゃ少なすぎるだろう。
Re: (スコア:0)
コメントには同意のうえで、サンプリングにバイアス(偏り)がありそうにも思う。
公安が持っている人民リスト、には人民のうち成年層は天網恢恢疎にして漏らさずだと思うが、幼児年代はそもそも人民リストを網羅しようという動機すらないんではないか
Re:Twitterで見かけましたが (スコア:1)
// 混ぜるな
Re: (スコア:0)
流出データにバイアスはあるだろうと思うけど、サンプルサイズが小さすぎるってことはないだろう
サンプリング誤差の計算には元のデータの数なんか関係ないわけで
Re: (スコア:0)
流出データにバイアスはあるだろうと思うけど、サンプルサイズが小さすぎるってことはないだろう
サンプリング誤差の計算には元のデータの数なんか関係ないわけで
サンプリングがランダムならいいんだけど、公的機関のデータベースって何等かの方法でソートかけられていておかしくない、というは普通はソートされている、所属地域か政府に対する従順度かはしらんが。
今回リークされた情報は、元のリストからランダムサンプリングされたという保証はない。
10億人のリストのうちの25万人を抽出したとして、ランダムに並べられたリストから25万人なら小さすぎはないが、そのリストがソートされていて、その25万人が「上海に住んでいる25万人」なのか、「○○少数民族自治区に住んでいる25万人」なのか、では統計情報に偏りはでる。
こういう疑いをもつことはデータを見るときには大事。疑いすぎると何も見えなくなるけどな
Re: (スコア:0)
言いたいことはわかるが、それって「サンプルサイズが小さすぎる」という問題ではないよな
サンプルに偏りがあるんじゃないかって問題でしょ
Re: (スコア:0)
言いたいことはわかるが、それって「サンプルサイズが小さすぎる」という問題ではないよな
サンプルに偏りがあるんじゃないかって問題でしょ
え、いやだから
(#4284184) は次のように言っている。なんか会話にすれ違いが出てるかな?
>コメントには同意のうえで、サンプリングにバイアス(偏り)がありそうにも思う
根本的解決するには母集団全体で統計とりゃーええで。
Re: (スコア:0)
>>母集団に対して0.1%以下のサンプルサイズじゃ少なすぎるだろう。
>コメントには同意のうえで
元コメに同意してるから、反対意見がぶら下がってるだけじゃないの。
10億人流出とはすごい (スコア:2)
中国の人口考えてもなお半分以上やんけ…
23テラってことはえーっと23*1000*1000*1000*1000か
1人当たり23kBか…ちょっと大きめな気がするがこんなもんか?
日本の会社で10億人分のデータ抱えてるところとかなさそうだ
Re: (スコア:0)
日本の会社じゃ無理だけどAmazon、Facebook辺りは持ってんじゃないの?
Re: (スコア:0)
Facebookは実際2021年に5.3億人の流出をやらかしてます(記事 [cnet.com])。しかも無料公開。
一応公開情報のスクレイピングだそうで。
Re: (スコア:0)
利用者自らインターネット上に公開している情報は、流出とは言わない。
Re: (スコア:0)
でも破産者マップは認めない人がいるわけでね。
Re: (スコア:0)
破産者マップも流出ではない。
Re: (スコア:0)
Facebookへの登録情報ってすべて公開だったっけ
Re: (スコア:0)
さすが中国はスケールが違いますね。
> 1人当たり23kBか…ちょっと大きめな気がするがこんなもんか?
一部の人は指紋データも含まれててそれでかさ上げされてるとか?ガクブル
Re: (スコア:0)
顔写真じゃないかな。
指紋とかDNAとか入ってたらヤバイね。
Re: (スコア:0)
>23テラってことはえーっと23*1000*1000*1000*1000か
「×1000」(?o?)
Re: (スコア:0)
こういうのって流出量を大きくしてキャッチーにするために1000使ってると思うよ
USBメモリの容量とかもそうだよね
Re: (スコア:0)
> 1人当たり23kBか…ちょっと大きめな気がするがこんなもんか?
いや、そんなことより、一人あたりの単価が1円以下のほうが驚きだろw (2700万円/10億=0.027円)
Re: (スコア:0)
リストは属性がそろってるほど高値
詐欺の被害者リスト(=騙されやすい人間リスト)とか高い値段がつく
これはそろってはないだろうからなぁ
買って整理すれば値段上がると思うよ
Re: (スコア:0)
そこまできて全員ではないデータベースって何なんだろうと気になる。
単に半分ほどに当たる20テラバイトだかをコピーしたところでバレて止まっただけとかかな。
Re: (スコア:0)
実は圧縮されていて実データサイズはその10倍くらいあったりして。
本番パスワードがソースコードに書かれてたらしい (スコア:1)
https://twitter.com/cz_binance/status/1543905416748359680 [twitter.com]
>Apparently, this exploit happened because the gov developer wrote a tech blog
>on CSDN and accidentally included the credentials.
Re: (スコア:0)
パスワードはちゃんと乱数生成っぽいな。
とはいえ本番用のパスワードを漏らしちゃうのが何とも現場猫案件・・
Re: (スコア:0)
真実であれば、
日本でいうQiitaみたいな中国のコミュニティサイトに、
認証情報を含んだブログ記事を書いてしまい、
それで10億人の情報が漏れちゃたの?!どうすんだよ…。
みたいな事案。
やらかした開発者の運命は!?
Re: (スコア:0)
ひらけゴマ、と
日本政府は買ったかな? (スコア:0)
アメリカはCIA/NSA的なところが買ったとして、日本政府はどうだろう?
軽い素性調査には便利そうだよね。
Re: (スコア:0)
政府が買う意味あるか?
具体的に例えば何に使うのよ。
Re: (スコア:0)
何だろうね
国内犯やスパイの身元捜査に使えるか?
大したことない犯罪を入国拒否事由にするとかには使えないだろうからなぁ
Re: (スコア:0)
犯罪者の売買の話にもかかわらず
縦割りとかばらまきとかこじつけでネガるのか
あなたたちの倫理観も大概だよ
Re: (スコア:0)
かわいいw
Re: (スコア:0)
誰も買わなくていつの間にか無料ダウンロード出来るようになってるのがいつものオチじゃね
Re: (スコア:0)
一般人のふりして外交機密費で買ってるんじゃない?
ホンモノならけっこう使えそう。
そのうち、中国なのに 25 億人とか、全人口を上回るデータもでてこないかな。名寄せしなくて延べみたいな感じになってるとか。
Re: (スコア:0, 参考になる)
モーツアルトを自民議員批判の署名に載せて2000人集まったと発表しちゃうのを最近パヨク団体がやってたけど、あんたの仲間はそんなレベルだよ。
魔除け (スコア:0)
六四天安門事件
Breach Forums (スコア:0)
尸魂界への行き方とか卍解の方法とか議論しているのかと思ったけど綴りが違った。
23TB転送されても (スコア:0)
気づかないもん?
十億人分のご百円で5千億円 (スコア:0)
もちろん単位は人民元