パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

米国家安全保障局、気付かずに一日数GBのスパムを収集していた」記事へのコメント

  • by Anonymous Coward

    公開されているBaidu のコーパス [baidu.jp]を思い出しました。
    クロールしているテキストに、スパム業者のものっぽいデータが混ざっており、
    スパムならではの同文のコピペにより、 N-gram で出現頻度の高いものとして扱われてしまうようです。

    5-gram の笑えるデータの例では、
    「ご、近所、人妻、と、即」だとか、
    「円、で、着メロ、全曲、取り」とか、
    通常使わない日本語がたくさん見つけられます。

    Baidu の名誉のために書いておきますが、スパムと思われる箇所以外は有用なデータです。
    ネットでデータを公開して頂いてるのには感謝しています。

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...