最近这段时间以来服务器都感觉有点异常,反应很慢, 开始还以为是流量增长所导致的,可越查越不像,后来看了几天日志后才发现sosospider的反常行为。 从日志上看类如这样的路径一天竟然高达十几万次,真是有点吓人了 124.115.4.190 - - [18/Jul/2008:21:48:58 +0900] “GET xxx 403 185 xxx “Sosospider+(+http://help.soso.com/webspider.htm)” 后来搜索了一下才发觉得原来是soso早已是成为被人发觉的恶虫了,据说是为了早日摆脱google而大量的抓取资料,可是你这样抓也要考虑人家是否受得了呀,搞得人家都当机了你抓了有个P用啊... 到soso的网站看了一下,看到下述的回答: <<<< 4.sosospider访问给我的网站造成很大负载怎么办? sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。 5.我可以拒绝sosospider访问我的站点么? sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。 >>>> 可事实上: 在发现这个事情后我就立即给soso发邮件告知此事,但二天后还是没有回音。 至于robots协议更是一个纯粹的谎言。在做了robots禁止后该蜘蛛还是频频抓取文件,却从来没访问过robots文件,这证明它根本就没鸟过robots协议, 本人非常支持国内搜索,但SOSO的蜘蛛却如此恶劣,实在没办法只好把它当流氓蜘蛛对待了。 最终解决办法: 一,有防火墙的在访问规则中设置“124.115.”的IP全部过滤了; 二,用IIS的在目录安全里设置“一组计算机”的过滤124.115.0.0,子网掩码为正常的255.255.255.0 然后就一天光明了,服务器也恢复了原速度了,只是觉得很可惜,毕竟是国人的蜘蛛呀,希望soso能就此事给网友一个交待并尽量改进收集方式。 |
欢迎光临 无忧启动论坛 (http://bbs.wuyou.net/) | Powered by Discuz! X3.3 |