2009年12月22日

AWStats的自定义扩展统计:Using the Extra Sections features

如何利用AWStats针对网站自身应用进行特定参数的统计,今天学习了一下:AWStats Documentation - Using the Extra Sections features。文档中主要有以下几个例子:
# Example 1: Tracking Product orders
跟踪商品订单:解析出GET /cgi-bin/order.cgi?productid=49&session=A0B1C2 中的productid=字段
# Example 2: Tracking Bugzilla most frequently viewed bugs
跟踪bugzilla中最经常被访问的Bug:原理同上,这在内部开发中非常有用,类似的,也很容易给BBS系统配置出最常访问的论坛等统计。
# Example 3: Tracking Exit clicks
跟踪用户离开当前网站的点击:前提是你将所有指向其他网站的链接通过/cgi-bin/awredir.pl?url=http://externalsite/pagelinked这样的链接进行部署。
# Example 4: Tracking aborted download
跟踪中断的下载:利用的是HTTP返回的状态码206 ExtraSectionCodeFilter1="206"
# Example 5: Tracking most requested domain aliases
跟踪最常用的域名别名:这需要在日志中部署并定义扩展字段%your_extra_field,然后在ExtraSestion中部署统计相应的扩展字段%your_extra_field 这里的例子就是将域名的别名,在一个域名有多个别名的时候,分析那个域名最常用最有帮助。
# Example 6: List of top level 2 path under a directory /mydir
跟踪某个目录下最常访问的2级子目录,根据样例设置了一个 /tech /blog 2个目录下的TOP文章统计。

按此阅读全文 "AWStats的自定义扩展统计:Using the Extra Sections features" »

2009年09月20日

中国每年出生人口数 1976年 - 2000年 历年男女性别比

2010-01-06_201125.png 感谢高巍
      年份       比例        总数               男             女
1976年出生 50.92%  20,491,797  10,435,196  10,056,601
1977年出生 50.86%  17,931,155   9,119,685   8,811,470
1978年出生 50.55%  18,831,591   9,519,345   9,312,246
1979年出生 50.45%  18,924,822   9,548,059   9,376,763
1980年出生 50.64%  18,393,809   9,315,481   9,078,328
1981年出生 51.00%  19,122,938   9,752,137   9,370,801
1982年出生 51.02%  23,100,427  11,786,950  11,316,732
1983年出生 51.21%  20,065,048  10,275,677  9,789,371
1984年出生 51.53%  20,313,426  10,468,201  9,845,225
1985年出生 51.88%  20,429,326  10,598,460  9,830,866
1986年出生 51.85%  23,190,076  12,023,710  11,166,366
1987年出生 53.87%  25,282,644  13,619,530  12,663,114
1988年出生 52.00%  24,576,191  12,779,621  11,796,570
1989年出生 52.16%  25,137,678  13,110,848  12,026,830
1990年出生 52.69%  26,210,044  13,811,030  12,399,014
1991年出生 53.16%  20,082,026  10,674,963  9,407,063
1992年出生 53.40%  18,752,106  10,014,222  8,737,884
1993年出生 53.53%  17,914,756   9,590,414   8,324,342
1994年出生 53.83%  16,470,140   8,866,012   7,604,128
1995年出生 54.08%  16,933,559   9,157,597   7,775,962
1996年出生 54.24%  15,224,282   8,257,145   6,967,137
1997年出生 54.64%  14,454,335   7,897,234   6,557,101
1998年出生 54.97%  14,010,711   7,701,684   6,309,027
1999年出生 55.09%  11,495,247   6,332,425   5,162,822
2000年出生 54.08%  13,793,799   7,460,206   6,333,593

按此阅读全文 "中国每年出生人口数 1976年 - 2000年 历年男女性别比" »

2009年08月10日

[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生

如果您是做开发的请移步这里

搜狗招聘:网站产品部搜索产品经理
抽点时间先做个测试吧:看看你是否适合做一个合格的搜索产品专员:
1、你经常使用各种搜索引擎吗?
A. 没错,岂止是经常,搜索引擎就是我上网的必备工具,找任何东西我都想先搜一下。
B. 经常用,不过只是用一些网页、MP3搜索之类的,而且基本只去那两三个有名的搜索引擎。
C. 不常用,网上信息来源很丰富,不是一定要用搜索引擎的。
D. 用得较少,甚至——搜索引擎是干什么的来着?我怎么没听说过?更别说用了...

2、你关心互联网的产品、应用和技术吗?对于比较知名的所谓Web2.0网站,你经常去的有多少?
A. 非常关心互联网的产品和应用,web2.0的提法太笼统了,我经常去光顾的随便就列出十个八个,而且我在AAA网站上是版主,在BBB网站上级别很高。
B. 一直关心互联网,web2.0我也比较了解,我知道的这样的网站有很多,不过有时间就会去看一下的只有五六个,自己会经常参与其中的还要更少一些。
C. 比较关心互联网,web2.0我也知道是什么意思,不过我经常去的这类网站只有两三个,大多数情况也只是浏览一下看看热闹而已。
D. 互联网我当然知道,不能说关心,关心了也没用呀,也没人会因为我关心给我发工资。Web2.0是什么意思?等我上网查一下或者明早问问旁边坐着的小刘吧。

3、对于互联网产品的设计和用户体验,你经常有独特的想法吗?
A. 我经常比较各种不同网站内容功能和技术的优劣,也看过很多分析评论文章,设想如果自己是网站负责人,该如何改进功能,提升用户体验。比方说XXX网站,为什么不参考一下美国的YYY网站呢?你看那个MMM网站的这个功能,做得就很人性化,流量能迅速上升是有原因的。NNN网站实在是无话可说,完全就不知道用户需要什么。居然有VC肯投它,不可理喻...
B. 我常常自己去尝试一些网站的内容和功能,不仅仅是为了使用,而是想分析不同网站或功能的区别。不过我虽然大致明白他们的区别和优劣,但没有更多的想过怎么改进才能做得更好。
C. 我只是感到在XXX网站上都是我需要的内容,使用也很流畅,而在类似的YYY网站上就有点找不着北,去了两次我就不去了。但是我也没仔细想过为什么。
D. 我只是在用,没有多想。什么?你说XXX网站和YYY网站有区别?我怎么没感觉?真的,一点感觉都没有...

4、你有过互联网项目管理或产品管理的经历吗?擅长和不同角色,不同性格的人沟通吗?
A. 你问对人了。我最近这两三年一直做互联网的产品和项目,产品策划实施运营我很熟悉,我管的项目组人还挺多呢。交流和沟通也根本不是问题。
B. 我做过互联网有关的工作,虽然产品和项目经验不是很多,但我有很多idea,而且沟通也不成问题。
C. 我虽然没有做过互联网有关的工作,不过有其它领域的项目和产品管理经验,我想很多东西都是普遍联系的,而我又一直很关心互联网这个领域,互联网的产品/项目管理对我来说也不成问题。沟通也还可以吧,不是问题。
D. 我没有什么项目/产品管理经验。说起沟通和交流,我一直就有这个困惑,为什么别人总是不能领会我的意思呢?好多事别人做出来的结果和我想要的怎么就是不一样呢?

5、你是否了解一些基本的搜索和互联网技术?
A. 我就是学计算机出身的,最近几年也一直关心这个领域,自己做过一些东西,对搜索和互联网技术非常清楚,只要我愿意,找个工程师的工作一点没问题。
B. 我虽然不是学技术出身的,但是由于很关心这个领域,自学了很多东西,一些基本技术我自己实践过,对技术发展趋势也比较清楚。
C. 我大概知道一些,不过没怎么实践过。
D. 完全不清楚,我想很多人都和我一样,没什么大惊小怪的。

按此阅读全文 "[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生" »

2009年07月26日

百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成

Baidu的API和google的完全相同,只是RPC的URL不同。Baidu的RPC服务URL 是

http://ping.baidu.com/ping/RPC2
具体提交参数可以参考:Google BlogSearch 服务的Ping接口文档。此外: Baidu蜘蛛也支持crawl-delaySitemaps协议。加上百度自有的阿拉丁格式接口,感觉内容网站和搜索引擎之间的交互接口越来越丰富了,结构化的数据提取和展现应该是通用搜索引擎的一个进化方向;

网站分析服务商Alexa最近也有不少面向站长很贴心的功能改进,虽然作为alexa反应总体流量趋势的能力越来越弱,但其中一些流量构成报告还是很有参考价值的:
1 搜索来源占总体流量比例;
2 搜索来源关键词;
3 流量来源分布: 包括搜索和内容链接;
4 用户构成,包括性别,年龄,教育,上网地点(工作/家里/学校),是否有小孩;

样例截图附后: 网站流量越大相对统计趋势会越准一些;

按此阅读全文 "百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成" »

2009年06月27日

腰围2尺1,2,3,4,5,6,7,8寸分别等于是多少厘米/英寸(对照表)

■70厘米 ■2尺1 ●26英寸
■74厘米 ■2尺2 ●28英寸
■76厘米 ■2尺3 ●29英寸
■78厘米 ■2尺35●30英寸
■80厘米 ■2尺4 ●31英寸
■82厘米 ■2尺45●32英寸
■84厘米 ■2尺5 ●33英寸
■86厘米 ■2尺6 ●34英寸
■88厘米 ■2尺65●35英寸
■90厘米 ■2尺7 ●36英寸
■92厘米 ■2尺75●37英寸
■94厘米 ■2尺8 ●38英寸
■96厘米 ■2尺85●39英寸
■98厘米 ■2尺95●40英寸
■100厘米■3尺 ●41英寸
■102厘米■3尺05●42英寸
■104厘米■3尺1 ●43英寸
■106厘米■3尺2 ●44英寸

按此阅读全文 "腰围2尺1,2,3,4,5,6,7,8寸分别等于是多少厘米/英寸(对照表)" »

2009年06月25日

内容型网站面向搜索引擎蜘蛛和搜索用户的优化

面向机器的抓取优化
1 缺省域名唯一化:缺省foobar.com 设置301跳转到 www.foobar.com 一方面减少搜索引擎页面消重的负担,一方面可以将针对相同内容的反向链接权重汇总。对于缺省使用https访问的网站,如果不跳转(比如以前的支付宝),往往还会有浏览器提示安全证书路径不匹配的问题; 另外: 在Google Webmaster tools中也有缺省域名的配置;
2 被遗忘的流量:想办法搜集域名解析失败和拼写错误导致的流量流失;曾经启用过的域名,就尽量不要删除,一直保留并设置转向到最新的地址;有渠道取到DNS的这种记录吗?
3 404页面的运营:返回hard 404(返回http header而不是html 404 header),统计并跟踪带有referer的404日志,修正这些问题;
4 节省HEAD类请求:对于一些蜘蛛(主要是百度蜘蛛),经常使用head请求来检查旧链接的有效性,启示可以针对这些请求做直接返回304处理,以节省服务器的处理资源;
5 永久转向:避免302,转向尽量使用301到最终地址;
6 重视站内搜索: 利用搜索做内容之间的关联和发现,每篇文章提供相关文章等功能;而能解析出搜索来源关键词的404访问尤其应该通过站内搜索为用户提供其他可选内容。
7 利用google webmaster tools等跟踪收录和错误抓取问题并及时修正;
8 归档页面URL标准化:虽说搜索引擎声称动态页面和静态页面收录和RANK不受影响,但为了方便管理,最好还是将内容页面尽量标准化成静态地址,并页面中尽量加上唯一化的地址,减少搜索引擎抓到相同内容的不同链接后消重的麻烦,比如各种论坛的内页: <link rel="canonical" href="http://www.example.com/discuz/thread-405413-1-2.html" />


面向用户的内容优化
1 自身主动检查spam,防止大量的镜像内容,搜索引擎对于spam处理不利的站点,往往也只好使用整体降权的方式;
2 避免用户因为使用第三方计数器,JS小功能(比如:样式很炫的用户鼠标指针等)被植入病毒木马,Google会向比较严重的站点的webmaster@信箱发送邮件提醒相关问题,所以这个邮箱一定要创建并定期查看;
3 结构化数据源: RSS、sitemaps归档入口,而最高效率的是利用各种ping接口将最新内容即时发送给搜索引擎(最近百度也都支持相应接口和协议了);
4 重视标题和meta description在搜索结果页上的可读性: meta description不参与排序,但良好的标题和meta description往往比纯算法提示出来的摘要更接近用户目标,在现有排名位置下,争取吸引用户更多的点击也是一个有效的策略;
5 应有的反向链接的获得: 主动加上版权声明

按此阅读全文 "内容型网站面向搜索引擎蜘蛛和搜索用户的优化" »

2009年04月30日

使用开源软件对IIS应用进行重构

日志统计和各种负载监控:
AWStats
全面统计原始日志,分析浏览器和非浏览器的流量,在很多应用中蜘蛛抓取已经超过了浏览器访问; 而搜索引擎的来源也和蜘蛛的遍历有很大的关系; 使用Cacti对服务器的各种指标进行监控,对于系统优化重构后的跟踪也有非常直观的表现,页面YSlow得分,甚至Google Webmaster统计都会比较有用; 进行重构前先进行一些统计和分析工作,在重构后也便于评估和量化重构的效果。

前端优化: Nginx
对照YSlow进行前端优化的主要是:
实现统一的expires配置: 实现客户端的缓存;
解决HTTP压缩: 减少文本的传输;
解决日志问题:更方便的增加针对cookie等字段的记录;
通过代理实现实现负载均衡: 将原有单机应用通过路径规则分布到后台多台应用服务器上而不用增加域名;
解决URL Rewrite等问题:相比IIS自身,nginx的配置都相对简单;

缓存优化:
静态文件缓存服务器:Varnish
分布式应用缓存: Memcached

epoll推动web发展:在各种服务中都能看到epoll机制的影子;

而各种平台之间的数据交换尽量使用json XML等格式便于未来跨平台调用;

按此阅读全文 "使用开源软件对IIS应用进行重构" »

2009年03月12日

雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析

2月份雅虎统计推出了一个新功能:访客网购兴趣,估计是基于用户的淘宝用户行为做的分析,数据好像不是每天更新,近期刚更新过。 本网站最适合用户人群:
类型             购买比例    相对平均差异
车载MP3/视听	2.68%	92.8%
数码相机其他配件	2.33%	84.9%
笔记本电脑	3.26%	69.8%
数码摄像机	1.12%	62.3%
GPS配件/车载通讯	7.31%	61.4%
品牌家饰	0.70%	55.6%
GPS	2.07%	54.5%
看来适宜推荐各种IT新设备; 相对其他网站平均的差异 = 是以与平均水平相比/平均水平 最不适宜在本网站投放的10中商品广告:
职业套装/学生校服/工作制服	0.72%	-41.0%
运动装外套	0.51%	-42.0%
热水器/浴霸	0.26%	-42.2%
围巾/丝巾/披肩	0.26%	-42.2%
运动裤/裙	0.27%	-42.6%
胶卷相机	0.27%	-43.8%
女装羽绒服	0.27%	-43.8%
装潢二手/闲置专区	0.27%	-44.9%
文胸套装	0.26%	-46.9%
运动套装	0.34%	-50.7%
装饰画/无框画	0.26%	-52.7%

按此阅读全文 "雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析" »

2009年03月05日

使用Google analytics的 _trackPageview()对网页进行重新命名统计

这里将一些利用Google analytics _trackPageview()进行URL改写实现别名统计的方案样例整理如下:
1 自定义链接改写(rewrite): 将URL变成可读性更好的地址, 例如:

/index.php ==> 部署 pageTracker._trackPageview('/首页');
/photos/sun_rise.html ==> 部署 pageTracker._trackPageview('/相册/日出');

这样就可以在页面基于url的分布统计之外,另外通过页面别名实现另外一套可读性更好的映射统计,解决按目录,按页面类型,

2 对动态参数网页进行别名统计:Google统计会忽略掉动态网页 ? 后面的参数,但将 /?a=1&b=2 在统计中改写变成 /a/1/b/2 后,就可以通过pageTracker._trackPageview("/a/1/b/2") 后不修改URL也能变相统计出来;

3 结合前台js,cookie信息和后台注册信息和后台程序组合逻辑进行扩展统计:用前端脚本或者后台程序动态生成: pageTracker._trackPageview("参数") 实现更复杂的统计别名
例如:
用户注册天数: pageTracker._trackPageview("/user/age/203days"),用于登录用户的注册时间分布;
分析性别分布: pageTracker._trackPageview("/user/sports/male") 分析每个频道的用户性别比例;
记录用户ID: pageTracker._trackPageview("/username/chedong/channel_a") 导出报表后,结合用户数据库信息,获得每个用户在各个频道的行为特点;
区分referer: 在同一个页面按referer不同分别进行统计:
pageTracker._trackPageview("/reg/from/partener")
pageTracker._trackPageview("/reg/from/baidu")

4 点出统计:通过onclick事件发出一个虚拟URL统计请求,这个机制可以用于统计flash,下载或点击到外站等无法部署统计代码的目标地址;

另外: Google提供的API大部分是部署时的接口/方法,更关心获得报表输出的批量导出API, 据说正在开发中:近期只对Trusted Tester开放,这样就更加方便和其他报表系统/应用集成了;

按此阅读全文 "使用Google analytics的 _trackPageview()对网页进行重新命名统计" »

2009年01月12日

AWStats 6.9发布: 补充中文搜索引擎定义和配置样例下载

Eldy赶在新年前把AWStats 6.9发布了: 主要的蜘蛛定义和搜索引擎定义修改以及本站的配置样例我已经打包在这里;AWStats虽然是perl写的,但是基本上要用起来不需要对perl熟悉,主要是配置的修改,并且可以适用于于大部分网站的流量结合Google Analytic统计作为网站状况的轻量级基础统计解决方案;

相关的更新也已经提交: 欢迎各位补充,争取在下一个版本中发布
AWStats - Patches - 4 items
1569229 Simplified Chinese language file update
1569201 top Chinese browser and robot update
1569151 TOP Chinese local search engines update
2499455 robots.txt: clfmerged log files maybe not start with /
AWStats - Feature Requests - 2 items
2498163 configurable $LIMITFLUSH and increase default value to 50000
706297 IIS timezone:change the timeline instead of change time

完整的diff附后: 包含了awstats.pl本身的2个小修改;
1 针对大量URL:增大$LIMITFLUSH减少临时文件I/O;
2 针对泛域名型应用的修改:使用clfmerge -b合并后的日志无法匹配"GET /robots.txt" (因为被clfmerge拼上域名,变成了 "GET http://foo.example.com/robots.txt");

按此阅读全文 "AWStats 6.9发布: 补充中文搜索引擎定义和配置样例下载" »

最近评论

  • 酱油君 针对 将个人域名邮箱迁移到GMail 说:

    QQMail功能copy挺齐全 但经常收不到注册验证 这点太失败了

  • donghao 针对 AWStats的自定义扩展统计:Using the Extra Sections features 说:

    隔了快一年了,终于有新文了

  • xiaoyou 针对 九型性格心理测试 (From Ulla Zang荣格的个人性格测验题目) 说:

    失敬 失敬 失敬 起初不知是大牛
    还以为是像我一样的顽童(学生)呢 开始觉得这个测试有趣 就想一起来玩玩 看了您的日记 然后google 之后才知道是大牛
    道歉

  • xiaoyou 针对 九型性格心理测试 (From Ulla Zang荣格的个人性格测验题目) 说:

    车东 你把剩下的六个分析给大家吧

  • xiaoyou 针对 九型性格心理测试 (From Ulla Zang荣格的个人性格测验题目) 说:

    1) 时常自我反省(整体颜色为深色掉),敏感(有细微的颜色变化)的思想家(深色掉没有亮色)
    你对于自己及四周的环境能够比一般人控制得更好更彻底(经常反省和外方内弧代表自我约束)。
    你讨厌表面化及肤浅的东西(颜色);
    你宁愿独自一人也不愿跟别人闲谈(颜色单调),但你跟朋友的关系却非常深入(颜色细腻变化,关系细致),这令你的心境保持和谐安逸(整体色调和谐)。
    你不介意长时间独自一人(单色),而且绝少会觉得沉闷(色调和谐)。
    2) 独立(三个图形各不相关,颜色差异也很大,和背景差异也很大),前卫(长条立型超出了边框,并且前半部有变色),不受拘束(长条立型超出了边框)
    你追求自由及不受拘束,自我的生活。
    你的工作及消闲活动都与艺术有关(这个看怎么定义艺术了 非主流算吗?)。
    你对于自由的渴求有时候会使你做出令人出人意表的事(长条立型超出了边框)。
    你的生活方式极具个人色彩;你永远不会盲目追逐潮流。(颜色和形状变化缺乏梯度)
    相反地,你会根据自己的意思和信念去生活,就算是逆流而上也在所不惜。(同上)
    3)(年轻人可能多些) 精力充沛(多种颜色多个形状而且均为亮色),好动(亮色,颜色和形状变化多),外向
    你不介意冒险,特别喜欢有趣的,多元化的工作(亮色,颜色和形状变化多)。
    相比之下,例行公事及惯例会令你没精打采(没有一个规范图形,例如方形,正三角形等)。
    你最兴奋的是可以积极参与任何比赛活动,因为这样你就可以在众人面前大显身手了(形状的变化,由小到大,而且逐渐遮住底色)。


  • Candy 针对 中国每年出生人口数 1976年 - 2000年 历年男女性别比 说:

    有千金是福气啊!

  • meng 针对 [搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生 说:

    A+B+B+C+B
    10+7+7+5+7=36

  • runyoo 针对 [搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生 说:

    我选的都是A

  • daniel 针对 中国每年出生人口数 1976年 - 2000年 历年男女性别比 说:

    何来错对之说?

  • david chan 针对 免费企业邮箱: Google app企业邮局的申请 说:

    哪里可以直接买到美国google企业邮箱?请各位帮帮忙,在下不胜感激

Creative Commons(创作共用)授权
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36