基于RSS/FEED的内容发现更节省带宽


Jen的文章AdSense mediapartners蜘蛛已经被抓取到了Google的主搜索索引中,我目前还没有发现类似样例,大部分内容还是通过Googlebot发现,但是提交到Sitemaps中的内容已经是通过Google的Feedfetcher进行同步了。
车东Che, Dong - My Window, Your Bridge
联系方式|Contact]. Google Talk · 雅虎招聘 [My Bloginality is INTJ]. Alexa流量统计:, 2006-04-18 03:50 @72.14.199.83 
CrawledBy Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) show this page source · Send me a book.
www.chedong.com/ - 46k - 2006年4月17日 - 网页快照 - 类似网页
从日志统计中也可以看出来,虽然FEED的访问频度要比以前的蜘蛛高很多,但是由于有文件是否更新的检查,占用的带宽却不一定升高。因此基于FEED的新内容发现比蜘蛛遍历网站效率还是要高很多。以下是一些日志统计的结果:
访问次数 流量(M) 平均大小(K) 蜘蛛名
57555	1750	31.1 	Potu Rss-Reader(1.13) www.potu.com
14518	28.92	2.0 	GreatNews/1.0
12960	0.51127	0.0 	Mozilla/5.0
11020	712.57	66.2 	Sunjet ( http://newsfeed.i5un.com/)
7725	237.09	31.4 	-
7249	54.01	7.6 	lilina 0.7 ( http://lilina.sf.net/)
5457	32.3	6.1 	Mozilla/4.0 (compatible; Google Desktop)
4648	136.67	30.1 	Gregarius/0.5.2 ( http://devlog.gregarius.net/docs/ua)
4053	125.3	31.7 	Potu Rss-Reader(1.12) www.potu.com
4040	123.95	31.4 	Mozilla/4.0 (compatible; Win32; WinHttp.WinHttpRequest.5)
3962	60.07	15.5 	MagpieRSS/0.7 ( http://magpierss.sf.net)
3913	4.16	1.1 	Feedfetcher-Google; ( http://www.google.com/feedfetcher.html)
3477	122.06	35.9 	http://www.gougou.com RSS Online Reader
3403	104.45	31.4 	FeedTools/0.2.18 http://www.sporkmonger.com/projects/feedtools/
3328	26.1	8.0 	Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1
2970	98.38	33.9 	MT::Telegraph::Agent/0.031
2759	90.37	33.5 	Mozilla/4.0
标黑的蜘蛛或RSS浏览器都遵循了HTTP 1.1规范,在读取同步时进行了文件更新的校验,如果文件没有更新,则自动读取了本地的缓存。而大部分基于本地浏览器的在线RSS阅读每次都重复进行了内容同步,带宽消耗很大。
      作者:车东 发表于:2006-04-19 18:04 最后更新于:2007-07-28 00:07
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: 基于RSS/FEED的内容发现更节省带宽:

» 搜索引擎战略大会( 2007 厦门 )后记 来自 车东[Blog^2]
5月底参加的另外一个大会是搜索引擎战略大会。搜索引擎有多重要呢? 搜索引擎不直接... [阅读更多细节]

Comments

看车东大哥的BLOG就是受益匪浅


你好:

我是http://www.booodo.com(博读社区)的站长,我的站主要提供博客RSS阅读的服务,我收录了你的博客,希望你能光临!


谢谢!

博读社区
http://www.booodo.com

雅虎搜索在中国的市场份额好像有下降的趋势

新的问题请教!

2006-04-28 20:51:50 202.108.1.5 - 400 0 2 - -
2006-04-28 20:51:53 66.249.72.84 GET 200 14174 199 Googlebot-Image/1.0 -
2006-04-28 20:53:21 222.132.6.51 GET 200 18388 159 Mozilla/3.0+(compatible;+Indy+Library) -

当然了,feed本来就内容简洁,没有繁多的HTML标记。
http://www.goldhai.com.cn/

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2006年04月19日 下午06时50分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 妮妮收到了Sarah Khider(芝华士广告歌 主唱)的留言

此 Blog 的后一篇日记是 如何寻找暑期实习机会

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36