Wiki is flat


最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;

简单比较一下传统的BBS和Blog Wiki之间的发布模式:

论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1
                |- ?post=2
                |- ?post=5
      - ?Forum=2 - ?post=4
                |- ?post=22
                |- ?post=8

Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档 BLOG: Better Listing On Google
- index - post10.html
       |- post9.html
       |- monthly_archive  - post8.html
                          |- post7.html
       |- category_archive - post8.html
                          |- post2.html
                          
由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。邮件列表归档和blog的发布结构非常像:邮件列表归档也有按时间归档的机制,并且使用permalink,

WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2
          -> topic3
|- topic2 -> topic3
|- topic3 -> topic2
          -> topic1

在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml  - post10.html
        |- post9.html
        |- post8.html
什么是Tag:
和原有的固定分类相比,tag可以提供一个更灵活的“多对多”类聚方法,在自动分类实现难度很高的情况下,让作者/编辑在发布内容的时候附上几个关键词,可以帮助内容之间实现更丰富的引用。关键词越多,类聚就越精确。很多blogger之间还使用一些特殊制造出来的关键词,利用technorati这样的blog引擎实现在更大空间内的聚合。 什么是PermaLink:
PermaLink给搜索引擎和其他应用一个承诺:在未来很长一段时间内,这个链接和其对应的内容是稳定的。搜索引擎也不喜欢带有复杂参数的动态链接,因为 foo.php?a=1&b=2和foo.php?b=2&a=1 可能是一个页面。搜索引擎更希望索引 foo/a/b 这样的稳定内容链接。而且尽可能直接将用户导向到他需要的内容页,而不是内容经常变换的首页/索引页。
由于wiki和blog在搜索引擎中获得巨大的影响力,也促使在这2个平台上汇聚了写作质量很高的一群人创作更多的内容。以下是wikipedia.cnblog.org这半年来的镜像统计数据做一些分析:

数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。

内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。

由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万

后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57

中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的 http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org

从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。

用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %

其他短语 30041 83.4 %

关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。 作者:车东 发表于:2006-03-05 22:03 最后更新于:2007-11-09 10:11
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: Wiki is flat:

» 昨日新闻 - 新左经济学者何以能左打右骂? 来自 keso
这几乎是一个新左在民间成为意见领袖的时代,在野派的反对声音对于主流的打压几乎收到的是一种四两拨千斤的效果,这个杠杆最大的支点还是那些永远沉默的大多数——人民。 [阅读更多细节]

» 上周技术关注:Live Clipboard Technical Introduction 来自 曾登高
The Live Clipboard web control is a DHTML control that provides copy/paste functionality for data associated with a web page using the Live Clipboard XML data format. It consists of the following components:* UI elements for displaying the Live Clipboa... [阅读更多细节]

» 搜索引擎战略大会( 2007 厦门 )后记 来自 车东[Blog^2]
5月底参加的另外一个大会是搜索引擎战略大会。搜索引擎有多重要呢? 搜索引擎不直接... [阅读更多细节]

» 把不带前缀的域名转向到www.域名的Apache 301转向配置样例 来自 车东[Blog^2]
各种不同的域名地址对于搜索引擎的除重(deduplication)来说是一个负担... [阅读更多细节]

Comments

顺便提一下,向Google提交了sitemap后,受益菲浅,这对那些先天结构不合理的网站绝对是福音

你好,很高兴认识你,找到了你的博客。我通过csdn上的朋友知道了你的博客地址。我是电子工业出版社博文视点的,我们最近出了一本新书《代码大全》第二版,您或许知道这本书曾经的影响力。我的一些朋友,孟岩,方舟他们都阅读过此书,也为此书写了书评。因此,为了这本书被更多的醉心与程序的程序员们读到,您也能给此书写一篇书评或者您对此书的一些感想吗?我的邮件地址给您附上了,希望能您的回信。以后我们电工有好的图书,我们都回及时告诉您。谢谢。
祝 好

你写的很好,不像有个叫王少磊的,光会seo。

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)