AWStats中的gb2312关键词问题


从上7月开始:我发现自己的AWStats统计中出现了gb2312和sitehao123这个关键词而且量很大:
gb2312 6515 11.3 %
spoolsv 3152 5.5 %
spoolsv.exe 2712 4.7 %
cvs 1873 3.2 %
apache 1761 3 %
phpinfo 1600 2.7 %
lucene 1160 2 %
sitehao123 1157 2 %
ant 864 1.5 %
但无论从那个搜索引擎上搜,通过这2个关键词也找不到我的页面啊?检查了一下统计,gb2312从6月份的统计中就开始有了。8月1日,新的一轮AWStats统计开始,仔细检查了一下apache的原始日志:从来源看,应该是来自百度的搜索结果页:
"http://www.baidu.com/s?lm=0&si=&rn=10&tn=sitehao123&ie=gb2312&ct=0&wd=免费杀毒软件&pn=10&cl=3"

其中tn是百度的合作网站代码,ie表示input encoding:表示输入字符串的字符集,而AWStats中有一个选项:
LevelForKeywordsDetection=2 # 0 disables Keyphrases/Keywords detection.
当设置为2的时候,会将来源网址中的所有参数进行遍历和自动识别,容易将一些其他参数的值当成关键词参数,这样的统计结果会丢失来源中实际的关键词。

解决方法:
除了修改awstats.pl代码外,awstats其实在search_engines.pm中有一个参数列表定义:专门用于过滤掉可能产生歧义的参数列表:WordsToCleanSearchUrl
@WordsToCleanSearchUrl= ('act=','annuaire=','btng=','cat=','categoria=','cfg=','cof=','cou=','count=','cp=','dd=','domain=','dt=','dw=','enc=','exec=','geo=','hc=','height=','hits=','hl=','hq=','hs=','id=','kl=','lang=','loc=','lr=','matchmode=','medor=','message=','meta=','mode=','order=','page=','par=','pays=','pg=','pos=','prg=','qc=','refer=','sa=','safe=','sc=','sort=','src=','start=','style=','stype=','sum=','tag=','temp=','theme=','type=','url=','user=','width=','what=','\\.x=','\\.y=','y=','look=');
将tn=和ie=加入到其中:tn=','ie=','
以后输出的参数中就不会有gb2312和tn=的值了。

以下是使用新WordsToCleanSearchUrl过滤参数的统计结果:
免费杀毒软件 191 7.5 %
spoolsv.exe 168 6.6 %
spoolsv 138 5.4 %
cvs 111 4.3 %
phpinfo 73 2.8 %
apache 72 2.8 %
lucene 58 2.2 %
脑筋急转弯 40 1.5 %

干净了很多。

其他:
今天还更新了一下firefox的用户分布日志:1.5.0.5已经占所有firefox用户80%以上了

作者:车东 发表于:2006-08-02 16:08 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

太巧了。我今天还在为这个东西疑惑呢 :)

实践出真知啊!
可惜这个工具对于访问量大的网站就没得用了。

如何修改GeoIp的数据库,自己订制IP对应信息(是修改GeoIP.dat吗,如何修改这个文件‘?)

原来如此。
我的站点虽然访问量很少,但是awstat出来第一位的也是gb2312。

我的第一个关键词居然是index.不知道应该如何处理?

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2006年08月02日 下午04时47分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 服务器硬盘故障恢复备忘

此 Blog 的后一篇日记是 歪打正着之:免费杀毒软件和芝华士广告

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36