Sohu Agent


最近从日志里发现了Sohu的Spider的踪迹: 感觉Sohu的蜘蛛命名还是应该更规范一些。


220.181.26.112 - - [24/Oct/2005:12:15:11 +0800] "GET /tech/unicode_java.html HTTP/1.1" 200 12857 "-" "sohu agent"
220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /tech/resin.html HTTP/1.1" 200 8221 "-" "sohu agent"
220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /bbcweb/206.htm HTTP/1.1" 200 1870 "-" "sohu agent"

之前写过一篇关于spider跟踪的文章:让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站。已经将Sohu agent加入了我的AWStats统计robots.pm中。

具体网站上的spider是从哪里抓过来的,根据最近几天日志统计的各个引擎的蜘蛛抓取分布和频度统计


Baidu Spider:
1212 202.108.11.236
354 202.108.22.88
352 61.135.145.251
351 202.108.250.197
322 202.108.11.241
199 202.108.250.246
126 61.135.145.211
89 202.108.22.76
64 159.226.50.33
37 61.135.145.209

GoogleBot
340 66.249.66.239
172 66.249.64.30
165 66.249.71.29
153 66.249.64.79
150 66.249.64.66
148 66.249.64.39
144 66.249.64.28
137 66.249.64.55
132 66.249.64.58
129 66.249.71.73

Yahoo! Slurp
284 202.160.180.164
268 202.160.180.172
252 68.142.249.115
252 202.160.180.168
247 202.160.180.60
241 202.160.180.154
237 202.160.180.158
223 202.160.180.199
213 202.160.179.120
212 202.160.180.162

Sohu Agent
536 220.181.26.113
384 220.181.26.110
327 220.181.26.112
134 220.181.26.109
79 220.181.26.111
13 220.181.26.107
12 220.181.26.74


统计脚本样例:grep -i Googlebot *|awk '{print $1}' |awk -F ':' '{print $2}' |sort|uniq -c|sort -rn |head -10

作者:车东 发表于:2005-10-25 16:10 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36