アカウント名:
パスワード:
公開されているBaidu のコーパス [baidu.jp]を思い出しました。クロールしているテキストに、スパム業者のものっぽいデータが混ざっており、スパムならではの同文のコピペにより、 N-gram で出現頻度の高いものとして扱われてしまうようです。
5-gram の笑えるデータの例では、「ご、近所、人妻、と、即」だとか、「円、で、着メロ、全曲、取り」とか、通常使わない日本語がたくさん見つけられます。
Baidu の名誉のために書いておきますが、スパムと思われる箇所以外は有用なデータです。ネットでデータを公開して頂いてるのには感謝しています。
あれ、使い出がありますよね。ブラックボックスなフィルタリングや抽出がされていない生データなので、その方がよいです。それこそ、不要情報のフィルタリングや有益情報の抽出の研究にもってこい。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
まじめに収集したデータにスパムが混じる (スコア:2, おもしろおかしい)
公開されているBaidu のコーパス [baidu.jp]を思い出しました。
クロールしているテキストに、スパム業者のものっぽいデータが混ざっており、
スパムならではの同文のコピペにより、 N-gram で出現頻度の高いものとして扱われてしまうようです。
5-gram の笑えるデータの例では、
「ご、近所、人妻、と、即」だとか、
「円、で、着メロ、全曲、取り」とか、
通常使わない日本語がたくさん見つけられます。
Baidu の名誉のために書いておきますが、スパムと思われる箇所以外は有用なデータです。
ネットでデータを公開して頂いてるのには感謝しています。
Re:まじめに収集したデータにスパムが混じる (スコア:0)
あれ、使い出がありますよね。
ブラックボックスなフィルタリングや抽出がされていない生データなので、その方がよいです。
それこそ、不要情報のフィルタリングや有益情報の抽出の研究にもってこい。