与垃圾斗争的岁月
作者:asky 日期:2007-06-23
<DIV>从半年前开始,垃圾广告开始从以前单纯的在留言板上留言向论坛发贴、博客评论、文章评论等角落全方位进攻转变。博客的评论成了受灾深重的地方,很多博客主不得已关闭了博客评论功能,但是,不能评论的博客无异于改变了博客的初衷——参与、互动。</DIV>
<DIV> </DIV>
<DIV>后来,人们发现发布在博客里面的内容大多数是用软件发的,他能利用软件向预先设定好的网址自动提交评论内容,于是,人们利用人工智能中的随机码技术,希望将软件发的广告挡在外面——因为软件不能识别出图片里不规则和无规律出现的信息。</DIV>
<DIV> </DIV>
<DIV>这点很管用,利用软件自动发布的成千上万的垃圾广告立刻没有了。</DIV>
<DIV> </DIV>
<DIV>但是不久之后,软件也升级了,如果发布评论需要输入随机码,它就弹出一个对话框,把图片显示出来,让人手动输入随机码,这样,垃圾广告不用登录网站又可以发布垃圾了——虽然效率低一些。</DIV>
<DIV> </DIV>
<DIV>对付这些垃圾信息,人们想到了关键字过滤,通过分析常见的垃圾信息中包含的关键字,如“机票”、“私服”等等,用户把这些关键字添加到过滤表中,系统接收到评论信息时,首先判断是否包含这些关键字,如果包含,则判定为垃圾,不允许通过。</DIV>
<DIV> </DIV>
<DIV>这已经进步了很多,有点像邮件服务器中的垃圾邮件过滤,尽管这种办法实在太初级,但是毕竟发垃圾广告的就是这些内容,还是很管用的。</DIV>
<DIV> </DIV>
<DIV>最近一段时间,垃圾们有进步了,因为它知道系统开始屏蔽包含敏感字符的内容。</DIV>
<DIV> </DIV>
<DIV>现在的垃圾,设置了一个字典,将一些貌似合情合理的评论内容添加到字典里,然后在用软件发布的时候,随机调用某段内容,这样就能够顺利的发布到几乎所有的博客评论当中了,这,实在让人防不胜防,因为关键字过滤技术完全无效了,垃圾们给博客程序出了道难题,你不是用图灵技术让我的自动发布失效吗?我也用看起来合理的内容让你的验证失效!</DIV>
<DIV> </DIV>
<DIV>这时候也许大家会说,既然垃圾们发的内容不包含垃圾内容了,那是不是就没有什么大害了呢?嘿嘿,关键问题还没有说到呢。</DIV>
<DIV> </DIV>
<DIV>垃圾们用常规内容骗过验证程序,顺利地将内容发布到博客评论中,但是我们别忘记了,评论的时候,还有一些地方不能忽视,例如“评论人的主页”,这是多么关键的啊。发垃圾的人的目的是什么?一,诱骗大家点击他的内容中的链接,这一点已经几乎没用了;二,让人对其主页好奇,回访其主页(其实是用来转向到某个垃圾网站的链接地址,千万别点);三,把链接发布到众多网站,利用搜索引擎的爬虫增加自己网站的反向链接数。</DIV>
<DIV> </DIV>
<DIV>哈哈,那我们也不可能不让评论者留下自己的网址呀。别跟我说建一个网址黑名单——那是庞大到让人害怕的。</DIV>
<DIV> </DIV>
<DIV>现在还真没有好的办法,以前验证提交内容来源的办法也早已被破。</DIV>
<DIV> </DIV>
<DIV>前两天发现,凡是真实访客发表的评论,其标题都没有改,都是默认的“Re:******”,而垃圾们自以为聪明的起了个标题,所以,嘿嘿嘿,暂时还挺有效。</DIV>
<DIV> </DIV>
<DIV>后来,人们发现发布在博客里面的内容大多数是用软件发的,他能利用软件向预先设定好的网址自动提交评论内容,于是,人们利用人工智能中的随机码技术,希望将软件发的广告挡在外面——因为软件不能识别出图片里不规则和无规律出现的信息。</DIV>
<DIV> </DIV>
<DIV>这点很管用,利用软件自动发布的成千上万的垃圾广告立刻没有了。</DIV>
<DIV> </DIV>
<DIV>但是不久之后,软件也升级了,如果发布评论需要输入随机码,它就弹出一个对话框,把图片显示出来,让人手动输入随机码,这样,垃圾广告不用登录网站又可以发布垃圾了——虽然效率低一些。</DIV>
<DIV> </DIV>
<DIV>对付这些垃圾信息,人们想到了关键字过滤,通过分析常见的垃圾信息中包含的关键字,如“机票”、“私服”等等,用户把这些关键字添加到过滤表中,系统接收到评论信息时,首先判断是否包含这些关键字,如果包含,则判定为垃圾,不允许通过。</DIV>
<DIV> </DIV>
<DIV>这已经进步了很多,有点像邮件服务器中的垃圾邮件过滤,尽管这种办法实在太初级,但是毕竟发垃圾广告的就是这些内容,还是很管用的。</DIV>
<DIV> </DIV>
<DIV>最近一段时间,垃圾们有进步了,因为它知道系统开始屏蔽包含敏感字符的内容。</DIV>
<DIV> </DIV>
<DIV>现在的垃圾,设置了一个字典,将一些貌似合情合理的评论内容添加到字典里,然后在用软件发布的时候,随机调用某段内容,这样就能够顺利的发布到几乎所有的博客评论当中了,这,实在让人防不胜防,因为关键字过滤技术完全无效了,垃圾们给博客程序出了道难题,你不是用图灵技术让我的自动发布失效吗?我也用看起来合理的内容让你的验证失效!</DIV>
<DIV> </DIV>
<DIV>这时候也许大家会说,既然垃圾们发的内容不包含垃圾内容了,那是不是就没有什么大害了呢?嘿嘿,关键问题还没有说到呢。</DIV>
<DIV> </DIV>
<DIV>垃圾们用常规内容骗过验证程序,顺利地将内容发布到博客评论中,但是我们别忘记了,评论的时候,还有一些地方不能忽视,例如“评论人的主页”,这是多么关键的啊。发垃圾的人的目的是什么?一,诱骗大家点击他的内容中的链接,这一点已经几乎没用了;二,让人对其主页好奇,回访其主页(其实是用来转向到某个垃圾网站的链接地址,千万别点);三,把链接发布到众多网站,利用搜索引擎的爬虫增加自己网站的反向链接数。</DIV>
<DIV> </DIV>
<DIV>哈哈,那我们也不可能不让评论者留下自己的网址呀。别跟我说建一个网址黑名单——那是庞大到让人害怕的。</DIV>
<DIV> </DIV>
<DIV>现在还真没有好的办法,以前验证提交内容来源的办法也早已被破。</DIV>
<DIV> </DIV>
<DIV>前两天发现,凡是真实访客发表的评论,其标题都没有改,都是默认的“Re:******”,而垃圾们自以为聪明的起了个标题,所以,嘿嘿嘿,暂时还挺有效。</DIV>
评论: 0 | 引用: 0 | 查看次数: 4210
发表评论
你没有权限发表评论!