awstats统计中过滤trackback spam


MT的trackback关闭了一段时间了,但是即使是404脚本不存在了:上个月仍然收到了trackback请求26万左右(估计占独立用户的5%-10%)。

404 Document Not Found 276101 95.2 % 1.43 G字节
;用了fastcgi,对于系统来说也是一个很高的负载。

而且对于AWStats统计来说:即使是404请求,也是计算到来访的独立用户的,这样会造成很多误差:比如去年10月份的统计,很难想想来自于那些国外机房(美国,日本,丹麦)的流量居然占了top 10 IP来源中的9个,让这个TOP 10 IP来源完全失去了意义。


主机 (前 10) - 全部列出 - 最近参观日期 - 无法反解译的IP地址
主机 : 0 个解译成功, 164470 无法得知(不能反解网域名称)
119778 参观者 GeoIP
Country GeoIP
City 网页数 文件数 字节 最近参观日期
38.98.120.69 United States Washington 9207 9308 438.99 M字节 2006年 10月 31日 23:58
8.11.2.79 United States 无法得知 8961 9058 267.84 M字节 2006年 10月 11日 04:13
220.181.18.77 China Beijing 1278 1278 31.18 M字节 2006年 10月 31日 18:59
61.12.159.237 Japan Kami-meguro 1081 1324 24.45 M字节 2006年 10月 29日 10:44
82.103.132.52 Denmark 无法得知 744 744 9.96 M字节 2006年 10月 31日 03:27
61.149.109.88 China Beijing 734 939 22.79 M字节 2006年 10月 03日 01:25
72.21.39.242 United States Frisco 684 710 17.87 M字节 2006年 10月 31日 10:16
220.189.213.3 China Hangzhou 528 11357 31.71 M字节 2006年 10月 31日 20:54
209.67.217.226 United States Dallas 515 515 12.11 M字节 2006年 10月 31日 23:31
64.27.19.254 United States Los Angeles 508 800 52.20 M字节 2006年 10月 31日 23:37

过滤了404也只是相对接近真实了一点:仍然有大量用于发现trackback侦察机在抓取:

58.25.99.171 China Shanghai 383 536 11.04 M字节 2007年 5 月 02日 23:23
222.210.108.237 China Beijing 263 263 2.15 M字节 2007年 5 月 02日 16:49
69.46.20.87 United States Tampa 162 162 4.18 M字节 2007年 5 月 02日 22:51
66.232.114.68 United States Tampa 152 152 4.12 M字节 2007年 5 月 02日 09:50
69.46.16.231 United States Tampa 146 146 3.86 M字节 2007年 5 月 02日 23:59
66.232.112.56 United States Tampa 110 110 2.99 M字节 2007年 5 月 02日 00:53
206.51.229.7 United States Tampa 110 110 2.87 M字节 2007年 5 月 02日 01:16
66.98.228.48 United States Houston 100 100 2.29 M字节 2007年 5 月 02日 01:16
201.226.51.7 Panama 无法得知 99 129 2.47 M字节 2007年 5 月 01日 11:48
216.246.78.191 United States Chicago 94 94 4.19 M字节 2007年 5 月 02日 23:53


解决方法:在awstats.chedong.conf文件中增加过滤文件配置
1 SkipFiles,过滤所有cgi-bin/mt目录下的访问请求;
2 SkipUserAgents 过滤trackback的空UA侦察机;
配置样例:

SkipFiles="REGEX[^\/cgi-bin\/mt\/]"
SkipUserAgents="-"

真实的数字:比绝对值更重要。

关闭了trackback后如何统计来源呢:利用搜索引擎的blogsearch的link:example.com明令是一个比较好的方法。

作者:车东 发表于:2007-05-02 19:05 最后更新于:2007-05-04 21:05
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

rss输出里面的引用内容换行都有问题~

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2007年05月02日 傍晚07时56分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 网站的外链/内链统计:来自Google的网站管理员工具

此 Blog 的后一篇日记是 基于邮箱通讯录导入的用户联系圈扩展

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36