中文网志年会 - [搜索]篇


网志年会也聚集了很多创业的团队,各个团队普遍都对搜索技术非常感兴趣,虽然目的不是和目前大的搜索引擎竞争,但是,通过全文检索技术将自己网站内部和外部的内容更好的相互引用确实是一个普遍的需求。

需求主要是两个方面:
1 站内搜索:站内搜索能便于用户迅速直达相关的内容;
目前很多数据库都提供了全文检索功能,但是对中文的支持优先,另外就是缺乏和其他字段组合的Rank机制。
Lucene可能是目前最常用的非数据库全文引擎,几乎各个语言平台上都有相应,也有一些支持中文分词的解决方案出现。

2 内容类聚:良好的引用能将网站内容之间形成更加网状的结构,也便于SPIDER快速遍历整个网站。
我们看到的Tagging(主题标签),也是实现文章之间通过关键词类聚的一种途径:
优点:比全文引擎实现成本要低,从一篇文章中提取1个或多个关键词,然后将有相同主题的内容类聚在一起。比起传统的目录分类:tagging更好的实现了多对多关系,更符合先写后分类的用户习惯;
缺点:是一种很有趣的造词游戏,但毕竟不能指望所有的用户都会使用10PlacesOfMyCity这样的CamelWord进行内容串联。
另外一个方式就是通过主题引擎的内容类聚:手拉手以文找文都是这方面很好的实现。

最后,不要忘记还有很多搜索引擎提供的站内搜索服务:
Blogger为搜索引擎提供更加非中心化的内容来源,而另外一方面:搜索引擎也通过关键词将这些blogger相互联系在一起。大部分blogger都有这样的体会:网站的主要访问来源是搜索引擎,和其他很多blogger之间相互初步了解都是先从搜索引擎上通过特定的主题关键词找到的:所以说blogger之间是通过“关键词”形成的小圈子(Social Network)

引用一段朋友的对话:
还有我觉得写blog的人都形成自己的小圈子比较多。你觉得呢?
Che: 是的
qingshuidanmu: 比如说keso
比如说你。
Sent at 19:58 on 星期日
qingshuidanmu: Busy
qingshuidanmu: 比如说donews
小的说来是几个人,大的说来更是一个团体。都是在这个团体中演变。
你们的文章在这里边转悠。
譬如转帖,也是转里面的圈子中人物的文章。

作者:车东 发表于:2005-12-04 20:12 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2005年12月04日 傍晚08时20分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 3年前的旧文:让你免于失业的十项开发技术

此 Blog 的后一篇日记是 phpMan.php中的XSS漏洞(Cross Site Script)

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36