rumood 发表于 2011-1-27 07:05:59

关于soso蜘蛛 导致服务器大负载

见鬼的sosospider,soso蜘蛛导致服务器瘫痪的解决方法
2008-07-03 00:50

最近这段时间以来服务器都感觉有点异常,反应很慢,
开始还以为是流量增长所导致的,可越查越不像,后来看了几天日志后才发现sosospider的反常行为。
从日志上看类如这样的路径一天竟然高达十几万次,真是有点吓人了
124.115.4.190 - - “GET xxx 403 185 xxx “Sosospider+(+http://help.soso.com/webspider.htm)”
后来搜索了一下才发觉得原来是soso早已是成为被人发觉的恶虫了,据说是为了早日摆脱google而大量的抓取资料,可是你这样抓也要考虑人家是否受得了呀,搞得人家都当机了你抓了有个P用啊...

到soso的网站看了一下,看到下述的回答:
<<<<
4.sosospider访问给我的网站造成很大负载怎么办?
sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
5.我可以拒绝sosospider访问我的站点么?
sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。
>>>>
可事实上:
在发现这个事情后我就立即给soso发邮件告知此事,但二天后还是没有回音。
至于robots协议更是一个纯粹的谎言。在做了robots禁止后该蜘蛛还是频频抓取文件,却从来没访问过robots文件,这证明它根本就没鸟过robots协议,
本人非常支持国内搜索,但SOSO的蜘蛛却如此恶劣,实在没办法只好把它当流氓蜘蛛对待了。

最终解决办法:
一,有防火墙的在访问规则中设置“124.115.”的IP全部过滤了;
二,用IIS的在目录安全里设置“一组计算机”的过滤124.115.0.0,子网掩码为正常的255.255.255.0
然后就一天光明了,服务器也恢复了原速度了,只是觉得很可惜,毕竟是国人的蜘蛛呀,希望soso能就此事给网友一个交待并尽量改进收集方式。

wuyou 发表于 2011-1-27 08:12:44

目前发现soso用了以下几个IP段
124.115.0.
124.115.1.
124.115.2.
124.115.3.
124.115.4.
124.115.5.
124.115.6.
124.115.7.
124.115.12.
124.115.0.14.

yu000 发表于 2011-1-28 08:10:17

万恶的腾讯~~~~~~~~~

2010iris 发表于 2011-2-7 00:40:47

多謝提供,看來我也得封了那網段

lizp2020 发表于 2011-4-19 21:29:33

万恶的腾讯,狗日的腾讯。
页: [1]
查看完整版本: 关于soso蜘蛛 导致服务器大负载