2009年09月20日

中国每年出生人口数 1976年 - 2000年 历年男女性别比

      年份       比例        总数               男          女
1976年出生 50.92%  20,491,797  10,435,196  10,056,601
1977年出生 50.86%  17,931,155   9,119,685   8,811,470
1978年出生 50.55%  18,831,591   9,519,345   9,312,246
1979年出生 50.45%  18,924,822   9,548,059   9,376,763
1980年出生 50.64%  18,393,809   9,315,481   9,078,328
1981年出生 51.00%  19,122,938   9,752,137   9,370,801
1982年出生 51.02%  23,100,427  11,786,950  11,316,732
1983年出生 51.21%  20,065,048  10,275,677  9,789,371
1984年出生 51.53%  20,313,426  10,468,201  9,845,225
1985年出生 51.88%  20,429,326  10,598,460  9,830,866
1986年出生 51.85%  23,190,076  12,023,710  11,166,366
1987年出生 53.87%  25,282,644  13,619,530  12,663,114
1988年出生 52.00%  24,576,191  12,779,621  11,796,570
1989年出生 52.16%  25,137,678  13,110,848  12,026,830
1990年出生 52.69%  26,210,044  13,811,030  12,399,014
1991年出生 53.16%  20,082,026  10,674,963  9,407,063
1992年出生 53.40%  18,752,106  10,014,222  8,737,884
1993年出生 53.53%  17,914,756   9,590,414   8,324,342
1994年出生 53.83%  16,470,140   8,866,012   7,604,128
1995年出生 54.08%  16,933,559   9,157,597   7,775,962
1996年出生 54.24%  15,224,282   8,257,145   6,967,137
1997年出生 54.64%  14,454,335   7,897,234   6,557,101
1998年出生 54.97%  14,010,711   7,701,684   6,309,027
1999年出生 55.09%  11,495,247   6,332,425   5,162,822
2000年出生 54.08%  13,793,799   7,460,206   6,333,593

按此阅读全文 "中国每年出生人口数 1976年 - 2000年 历年男女性别比" »

2009年08月10日

[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生

如果您是做开发的请移步这里

搜狗招聘:网站产品部搜索产品经理
抽点时间先做个测试吧:看看你是否适合做一个合格的搜索产品专员:
1、你经常使用各种搜索引擎吗?
A. 没错,岂止是经常,搜索引擎就是我上网的必备工具,找任何东西我都想先搜一下。
B. 经常用,不过只是用一些网页、MP3搜索之类的,而且基本只去那两三个有名的搜索引擎。
C. 不常用,网上信息来源很丰富,不是一定要用搜索引擎的。
D. 用得较少,甚至——搜索引擎是干什么的来着?我怎么没听说过?更别说用了...

2、你关心互联网的产品、应用和技术吗?对于比较知名的所谓Web2.0网站,你经常去的有多少?
A. 非常关心互联网的产品和应用,web2.0的提法太笼统了,我经常去光顾的随便就列出十个八个,而且我在AAA网站上是版主,在BBB网站上级别很高。
B. 一直关心互联网,web2.0我也比较了解,我知道的这样的网站有很多,不过有时间就会去看一下的只有五六个,自己会经常参与其中的还要更少一些。
C. 比较关心互联网,web2.0我也知道是什么意思,不过我经常去的这类网站只有两三个,大多数情况也只是浏览一下看看热闹而已。
D. 互联网我当然知道,不能说关心,关心了也没用呀,也没人会因为我关心给我发工资。Web2.0是什么意思?等我上网查一下或者明早问问旁边坐着的小刘吧。

3、对于互联网产品的设计和用户体验,你经常有独特的想法吗?
A. 我经常比较各种不同网站内容功能和技术的优劣,也看过很多分析评论文章,设想如果自己是网站负责人,该如何改进功能,提升用户体验。比方说XXX网站,为什么不参考一下美国的YYY网站呢?你看那个MMM网站的这个功能,做得就很人性化,流量能迅速上升是有原因的。NNN网站实在是无话可说,完全就不知道用户需要什么。居然有VC肯投它,不可理喻...
B. 我常常自己去尝试一些网站的内容和功能,不仅仅是为了使用,而是想分析不同网站或功能的区别。不过我虽然大致明白他们的区别和优劣,但没有更多的想过怎么改进才能做得更好。
C. 我只是感到在XXX网站上都是我需要的内容,使用也很流畅,而在类似的YYY网站上就有点找不着北,去了两次我就不去了。但是我也没仔细想过为什么。
D. 我只是在用,没有多想。什么?你说XXX网站和YYY网站有区别?我怎么没感觉?真的,一点感觉都没有...

4、你有过互联网项目管理或产品管理的经历吗?擅长和不同角色,不同性格的人沟通吗?
A. 你问对人了。我最近这两三年一直做互联网的产品和项目,产品策划实施运营我很熟悉,我管的项目组人还挺多呢。交流和沟通也根本不是问题。
B. 我做过互联网有关的工作,虽然产品和项目经验不是很多,但我有很多idea,而且沟通也不成问题。
C. 我虽然没有做过互联网有关的工作,不过有其它领域的项目和产品管理经验,我想很多东西都是普遍联系的,而我又一直很关心互联网这个领域,互联网的产品/项目管理对我来说也不成问题。沟通也还可以吧,不是问题。
D. 我没有什么项目/产品管理经验。说起沟通和交流,我一直就有这个困惑,为什么别人总是不能领会我的意思呢?好多事别人做出来的结果和我想要的怎么就是不一样呢?

5、你是否了解一些基本的搜索和互联网技术?
A. 我就是学计算机出身的,最近几年也一直关心这个领域,自己做过一些东西,对搜索和互联网技术非常清楚,只要我愿意,找个工程师的工作一点没问题。
B. 我虽然不是学技术出身的,但是由于很关心这个领域,自学了很多东西,一些基本技术我自己实践过,对技术发展趋势也比较清楚。
C. 我大概知道一些,不过没怎么实践过。
D. 完全不清楚,我想很多人都和我一样,没什么大惊小怪的。

按此阅读全文 "[搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生" »

2009年07月26日

百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成

Baidu的API和google的完全相同,只是RPC的URL不同。Baidu的RPC服务URL 是

http://ping.baidu.com/ping/RPC2
具体提交参数可以参考:Google BlogSearch 服务的Ping接口文档。此外: Baidu蜘蛛也支持crawl-delaySitemaps协议。加上百度自有的阿拉丁格式接口,感觉内容网站和搜索引擎之间的交互接口越来越丰富了,结构化的数据提取和展现应该是通用搜索引擎的一个进化方向;

网站分析服务商Alexa最近也有不少面向站长很贴心的功能改进,虽然作为alexa反应总体流量趋势的能力越来越弱,但其中一些流量构成报告还是很有参考价值的:
1 搜索来源占总体流量比例;
2 搜索来源关键词;
3 流量来源分布: 包括搜索和内容链接;
4 用户构成,包括性别,年龄,教育,上网地点(工作/家里/学校),是否有小孩;

样例截图附后: 网站流量越大相对统计趋势会越准一些;

按此阅读全文 "百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成" »

2009年06月27日

腰围2尺1,2,3,4,5,6,7,8寸分别等于是多少厘米/英寸(对照表)

■70厘米 ■2尺1 ●26英寸
■74厘米 ■2尺2 ●28英寸
■76厘米 ■2尺3 ●29英寸
■78厘米 ■2尺35●30英寸
■80厘米 ■2尺4 ●31英寸
■82厘米 ■2尺45●32英寸
■84厘米 ■2尺5 ●33英寸
■86厘米 ■2尺6 ●34英寸
■88厘米 ■2尺65●35英寸
■90厘米 ■2尺7 ●36英寸
■92厘米 ■2尺75●37英寸
■94厘米 ■2尺8 ●38英寸
■96厘米 ■2尺85●39英寸
■98厘米 ■2尺95●40英寸
■100厘米■3尺 ●41英寸
■102厘米■3尺05●42英寸
■104厘米■3尺1 ●43英寸
■106厘米■3尺2 ●44英寸

按此阅读全文 "腰围2尺1,2,3,4,5,6,7,8寸分别等于是多少厘米/英寸(对照表)" »

2009年06月25日

内容型网站面向搜索引擎蜘蛛和搜索用户的优化

面向机器的抓取优化
1 缺省域名唯一化:缺省foobar.com 设置301跳转到 www.foobar.com 一方面减少搜索引擎页面消重的负担,一方面可以将针对相同内容的反向链接权重汇总。对于缺省使用https访问的网站,如果不跳转(比如以前的支付宝),往往还会有浏览器提示安全证书路径不匹配的问题; 另外: 在Google Webmaster tools中也有缺省域名的配置;
2 被遗忘的流量:想办法搜集域名解析失败和拼写错误导致的流量流失;曾经启用过的域名,就尽量不要删除,一直保留并设置转向到最新的地址;有渠道取到DNS的这种记录吗?
3 404页面的运营:返回hard 404(返回http header而不是html 404 header),统计并跟踪带有referer的404日志,修正这些问题;
4 节省HEAD类请求:对于一些蜘蛛(主要是百度蜘蛛),经常使用head请求来检查旧链接的有效性,启示可以针对这些请求做直接返回304处理,以节省服务器的处理资源;
5 永久转向:避免302,转向尽量使用301到最终地址;
6 重视站内搜索: 利用搜索做内容之间的关联和发现,每篇文章提供相关文章等功能;而能解析出搜索来源关键词的404访问尤其应该通过站内搜索为用户提供其他可选内容。
7 利用google webmaster tools等跟踪收录和错误抓取问题并及时修正;
8 归档页面URL标准化:虽说搜索引擎声称动态页面和静态页面收录和RANK不受影响,但为了方便管理,最好还是将内容页面尽量标准化成静态地址,并页面中尽量加上唯一化的地址,减少搜索引擎抓到相同内容的不同链接后消重的麻烦,比如各种论坛的内页: <link rel="canonical" href="http://www.example.com/discuz/thread-405413-1-2.html" />


面向用户的内容优化
1 自身主动检查spam,防止大量的镜像内容,搜索引擎对于spam处理不利的站点,往往也只好使用整体降权的方式;
2 避免用户因为使用第三方计数器,JS小功能(比如:样式很炫的用户鼠标指针等)被植入病毒木马,Google会向比较严重的站点的webmaster@信箱发送邮件提醒相关问题,所以这个邮箱一定要创建并定期查看;
3 结构化数据源: RSS、sitemaps归档入口,而最高效率的是利用各种ping接口将最新内容即时发送给搜索引擎(最近百度也都支持相应接口和协议了);
4 重视标题和meta description在搜索结果页上的可读性: meta description不参与排序,但良好的标题和meta description往往比纯算法提示出来的摘要更接近用户目标,在现有排名位置下,争取吸引用户更多的点击也是一个有效的策略;
5 应有的反向链接的获得: 主动加上版权声明

按此阅读全文 "内容型网站面向搜索引擎蜘蛛和搜索用户的优化" »

2009年04月30日

使用开源软件对IIS应用进行重构

日志统计和各种负载监控:
AWStats
全面统计原始日志,分析浏览器和非浏览器的流量,在很多应用中蜘蛛抓取已经超过了浏览器访问; 而搜索引擎的来源也和蜘蛛的遍历有很大的关系; 使用Cacti对服务器的各种指标进行监控,对于系统优化重构后的跟踪也有非常直观的表现,页面YSlow得分,甚至Google Webmaster统计都会比较有用; 进行重构前先进行一些统计和分析工作,在重构后也便于评估和量化重构的效果。

前端优化: Nginx
对照YSlow进行前端优化的主要是:
实现统一的expires配置: 实现客户端的缓存;
解决HTTP压缩: 减少文本的传输;
解决日志问题:更方便的增加针对cookie等字段的记录;
通过代理实现实现负载均衡: 将原有单机应用通过路径规则分布到后台多台应用服务器上而不用增加域名;
解决URL Rewrite等问题:相比IIS自身,nginx的配置都相对简单;

缓存优化:
静态文件缓存服务器:Varnish
分布式应用缓存: Memcached

epoll推动web发展:在各种服务中都能看到epoll机制的影子;

而各种平台之间的数据交换尽量使用json XML等格式便于未来跨平台调用;

按此阅读全文 "使用开源软件对IIS应用进行重构" »

2009年03月12日

雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析

2月份雅虎统计推出了一个新功能:访客网购兴趣,估计是基于用户的淘宝用户行为做的分析,数据好像不是每天更新,近期刚更新过。 本网站最适合用户人群:
类型             购买比例    相对平均差异
车载MP3/视听	2.68%	92.8%
数码相机其他配件	2.33%	84.9%
笔记本电脑	3.26%	69.8%
数码摄像机	1.12%	62.3%
GPS配件/车载通讯	7.31%	61.4%
品牌家饰	0.70%	55.6%
GPS	2.07%	54.5%
看来适宜推荐各种IT新设备; 相对其他网站平均的差异 = 是以与平均水平相比/平均水平 最不适宜在本网站投放的10中商品广告:
职业套装/学生校服/工作制服	0.72%	-41.0%
运动装外套	0.51%	-42.0%
热水器/浴霸	0.26%	-42.2%
围巾/丝巾/披肩	0.26%	-42.2%
运动裤/裙	0.27%	-42.6%
胶卷相机	0.27%	-43.8%
女装羽绒服	0.27%	-43.8%
装潢二手/闲置专区	0.27%	-44.9%
文胸套装	0.26%	-46.9%
运动套装	0.34%	-50.7%
装饰画/无框画	0.26%	-52.7%

按此阅读全文 "雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析" »

2009年03月05日

使用Google analytics的 _trackPageview()对网页进行重新命名统计

这里将一些利用Google analytics _trackPageview()进行URL改写实现别名统计的方案样例整理如下:
1 自定义链接改写(rewrite): 将URL变成可读性更好的地址, 例如:

/index.php ==> 部署 pageTracker._trackPageview('/首页');
/photos/sun_rise.html ==> 部署 pageTracker._trackPageview('/相册/日出');

这样就可以在页面基于url的分布统计之外,另外通过页面别名实现另外一套可读性更好的映射统计,解决按目录,按页面类型,

2 对动态参数网页进行别名统计:Google统计会忽略掉动态网页 ? 后面的参数,但将 /?a=1&b=2 在统计中改写变成 /a/1/b/2 后,就可以通过pageTracker._trackPageview("/a/1/b/2") 后不修改URL也能变相统计出来;

3 结合前台js,cookie信息和后台注册信息和后台程序组合逻辑进行扩展统计:用前端脚本或者后台程序动态生成: pageTracker._trackPageview("参数") 实现更复杂的统计别名
例如:
用户注册天数: pageTracker._trackPageview("/user/age/203days"),用于登录用户的注册时间分布;
分析性别分布: pageTracker._trackPageview("/user/sports/male") 分析每个频道的用户性别比例;
记录用户ID: pageTracker._trackPageview("/username/chedong/channel_a") 导出报表后,结合用户数据库信息,获得每个用户在各个频道的行为特点;
区分referer: 在同一个页面按referer不同分别进行统计:
pageTracker._trackPageview("/reg/from/partener")
pageTracker._trackPageview("/reg/from/baidu")

4 点出统计:通过onclick事件发出一个虚拟URL统计请求,这个机制可以用于统计flash,下载或点击到外站等无法部署统计代码的目标地址;

另外: Google提供的API大部分是部署时的接口/方法,更关心获得报表输出的批量导出API, 据说正在开发中:近期只对Trusted Tester开放,这样就更加方便和其他报表系统/应用集成了;

按此阅读全文 "使用Google analytics的 _trackPageview()对网页进行重新命名统计" »

2009年01月12日

AWStats 6.9发布: 补充中文搜索引擎定义和配置样例下载

Eldy赶在新年前把AWStats 6.9发布了: 主要的蜘蛛定义和搜索引擎定义修改以及本站的配置样例我已经打包在这里;AWStats虽然是perl写的,但是基本上要用起来不需要对perl熟悉,主要是配置的修改,并且可以适用于于大部分网站的流量结合Google Analytic统计作为网站状况的轻量级基础统计解决方案;

相关的更新也已经提交: 欢迎各位补充,争取在下一个版本中发布
AWStats - Patches - 4 items
1569229 Simplified Chinese language file update
1569201 top Chinese browser and robot update
1569151 TOP Chinese local search engines update
2499455 robots.txt: clfmerged log files maybe not start with /
AWStats - Feature Requests - 2 items
2498163 configurable $LIMITFLUSH and increase default value to 50000
706297 IIS timezone:change the timeline instead of change time

完整的diff附后: 包含了awstats.pl本身的2个小修改;
1 针对大量URL:增大$LIMITFLUSH减少临时文件I/O;
2 针对泛域名型应用的修改:使用clfmerge -b合并后的日志无法匹配"GET /robots.txt" (因为被clfmerge拼上域名,变成了 "GET http://foo.example.com/robots.txt");

按此阅读全文 "AWStats 6.9发布: 补充中文搜索引擎定义和配置样例下载" »

2008年12月18日

关于Google FREE Webhosting !的欺诈邮件 200∞

早上收到了一封貌似正常的邮件:

Hello,
Dear Gmail customer
After our free email services we offer you to sing up for our free hosting services.
This service currently is in beta test.
And we choose you to test this services and report us any bug you may find.We give you unlimited webspace on your own domain name you must only change your dns services to ns1.google.com and ns2.google.com and enter your domain name in our special control panel.
Our servers are linux based and we support PHP, SSL (Secure Shell),FTP,Stats,CGI,Perl,Unlimited email address and finaly 500 MySQL Database.

Notice :
Dont sell this invitation code in auction website that may cause we disable your account in the future.

Your invitation code :
http://gmail-application.com/cvw2p99ah7dtV1bFJyacSHUQcdROroysWeaIkkATEXaZUJ7n6wwXjzlyFVEYfJyB74Y66qln8VSP1Njjbp4zW/


Need help ? Hosting-Support@google.com
Google Webhosting Team

为什么是欺诈邮件,whois一下邀请链接的域名就知道了:详情附后,注册人好像在香港,搜索 Hosting-Support@google看,1月份,4月份,8月份都有类似邮件发出;

按此阅读全文 "关于Google FREE Webhosting !的欺诈邮件 200∞" »

最近评论

  • 灰太狼 针对 [转载]:博弈论与纳什平衡 说:

    掌握高熵赛棋,掌握对手,赢得博弈

    我们把人类生命运动的形式,看成是一种高级的运动形式,在博弈的行为中表现出来的结果却是很低级的。博弈是自然界中最为直观的经济模式,任何人从博弈失误的行为结果中可以看出,博弈排除了智力,排除了地位、荣誉和友谊,排除了人性表面的一切东西。《博弈圣经》上说:“好像自然不接受内在友谊,也不接受热爱和尊重,让我们冷酷无情地与它竞争。”所以,博弈的复杂、深奥和博弈结果的无情让所有人不敢涉足,甚至人们把大部分的博弈形式看成赌博,不能被人接受,甚至咒骂,或被政府抵制。其实人们干的事情,大半就像赌博,只有一小半是按正常规则进行博弈经济活动。
    决策人行为对应着的都是大于三的一个博弈实体,这是一大块,一个容得下更多人的博弈平台。也就是说,直接观察人的生物亲序的行为结果,它对应着的都是一个实体,任何人在实体里决策,期望值都不会大于一半。人们很自然地想到,能不能从决策人生物行为失误的对边找到取胜的可能。人们开始用高熵赛棋探索粒子状态,在空间、时间和决策人行为的研究,通过对高熵赛棋粒子行为论的观察,才发现粒子在时空里的特性和大自然红兰红兰红兰运作模式的秘密。
    我们用高熵赛棋的红兰位置和规则,反复地对比调换,弄清它们关于时间、空间、红兰、先后等互相嵌套的关系,证明了两个对局角色有着不平等的赢的规则和不同的特性,有一方会占优,高熵赛棋这个规则的规定和所有游戏规则的理性一样,应该是一种偶然,它让人们研究未知事件,简化了一大步。谁能够掌握高熵赛棋两角色,并能控制一方,自己就占优取胜,然后再将这种给决策人行为定性的(方法)移植到百家乐或股市里的操作中,就会在红兰红兰红兰粒子或涨跌的对局中取胜,也可以应用到显示AB的游戏中。
    假如将几个参与人都混在一起,用高熵赛棋的规则分配空间位置,就会自然显示出两方不同的输赢规则,真正懂得国正论里的定性,其中一方改用不同的对局特性,占优的一方最终就会占优取胜。通俗地讲,如果你是高熵赛棋的赢家,移植才有可能会赢。
    赛棋的玩法及详细资料请参考http://www.caoab.com/index2.html

  • 水叶依兰 针对 雅虎通可以批量添加MSN用户了 说:

    我想知道怎么添加MSN好友! 谢谢

  • nianzog 针对 国外网站上不去?利用Putty通过ssh端口转发实现FireFox和MSN加密代理访问 说:

    QQ使用socket代理时要什么用户密码,这个怎么回事?

  • thx 针对 spoolsv.exe占用cpu 100%的解决方法 说:

    谢谢各位的解决方法,终于自己搞定。

    试遍了上述方法,将后台打印改为直接打印效果最好。

  • 天缘博客 针对 中国每年出生人口数 1976年 - 2000年 历年男女性别比 说:

    孩子们是没错,错的都是我们这些成年人。

  • classicvoicef 针对 [搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生 说:

    靠``还没发现不合格的``

  • yuan 针对 免费企业邮箱: Google app企业邮局的申请 说:

    为什么我不能申请163邮箱

  • cheap uggs 针对 国外网站上不去?利用Putty通过ssh端口转发实现FireFox和MSN加密代理访问 说:

    能够通过类似https的方式,访问不提供https的网站吗?

  • qin 针对 中国每年出生人口数 1976年 - 2000年 历年男女性别比 说:

    大家看看这几年更严重,看来计划生肓这条政策也不是长远之计

  • 唐力勤 针对 [搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生 说:

    1、A
    2、C
    3、A
    4、C
    5、C

Creative Commons(创作共用)授权
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36