MSN推出带有自动类聚功能的搜索引擎


对于搜索结果的丰富程度有2个方面,一方面是搜索引擎的索引量,不进入索引肯定是搜索不到的;另外一方面是展现:如何在有限的范围内(比如 top 10)消除重复/或者近似的内容,展现更多样性的结果。目前的搜索引擎已经利用了一些简单的类聚方式提高搜索结果的广泛性,比如:
根据站点域名类聚:每个网站的相关结果只显示1条或2条,如果需要缩小搜索范围,可以使用[站内搜索]获得更多内容;
根据网页内容标题/摘要进行类聚:在搜索过程重相同标题的网页或者网页相似内容的结果将被省略掉,这样用户就有可能看到后面更多样的结果了;
相关搜索:增加更多的关键词,帮助缩小搜索范围,这可能也是搜索引擎逐渐都增加了“相关搜索”的原因吧;

从MSN Search Blog上看到:msnsearch's WebLog : Search Results Clustering

试用了一下:的确非常不错
自动分类技术将是下一步改善搜索效率的一个很重要的方面,因为很多用户面对搜索出来的成千上万条结果没有一页一页的翻找的耐心,而又不会使用更多关键词帮助缩小搜索范围,这样搜索引擎搜索出来的内容真正被用户使用的,可能只有最前面很少的一部分。

如果说目前的海量网页搜索引擎只是帮助用户找到了和快速定位到一些已知问题的目标,那么对于一些模糊信息,如果搜索引擎根据内容能将头几百条中的内容按照一定特征“类聚”起来,相当于帮助用户快速浏览了TOP 1000条结果,帮助用户在更大范围内帮助快速缩小搜索范围并定位到需要的主题。

所以我感觉自动分类技术相当于在不增加索引量的情况下进一步提高搜索引擎的广泛度和可用度。

带有类聚功能的引擎,比如:Vivisimo很早就开始出现了: vivisimo-clusty.png
但是为什么一直没有推广开呢?原因很简单:速度。Vivisimo是META引擎:就是利用其他搜索引擎的搜索结果进行再加工。其速度当然受到非常多的限制,是不可能在大并发用户访问压力下保持足够快的响应速度。

但是这次MSN不同了:MSN搜索是自有技术的后台引擎,看到下面的“@2005 Microsoft Corporation. All rights reserved.”了吗?微软有足够的资源(可能暂时还没有投入)将各种搜索结果预先缓存处理好并更快的进行类聚,但这次发布在directtaps.net是MSN首先在另外注册的域名上进行的试验:也可能能是独立的搜索门户的尝试。

Registrant:
Microsoft Corporation
1 Microsoft Way
Redmond, WA 98052
US

Domain name: DIRECTTAPS.NET

Administrative Contact:
Administrator, Domain domains@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080
Technical Contact:
Hostmaster, MSN msnhst@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080


Registration Service Provider:
DBMS VeriSign, dbms-support@verisign.com
800-579-2848 x4
Please contact DBMS VeriSign for domain updates, DNS/Nameserver
changes, and general domain support questions.


Registrar of Record: TUCOWS, INC.
Record last updated on 27-May-2004.
Record expires on 30-Apr-2006.
Record created on 30-Apr-2001.

Domain servers in listed order:
DNS1.DIRECTTAPS.NET 131.107.1.7
DNS2.DIRECTTAPS.NET 131.107.1.240


Domain status: REGISTRAR-LOCK

其实对于自动类聚:一般的META引擎只能根据其他引擎返回的内容摘要进行类聚,MSN有自己的引擎,应该可以做更多的优化和控制。

而就类聚速度问题的改善:我觉得搜索引擎不一定每次搜索都实时出类聚结果,而是后台每天将最常用的查询预先缓存好。毕竟需要类聚的一般都是比较模糊的查询词和搜索结果数量过大的时候才用的到。不一定在用户搜索目标很明确的时候还进行过多的类聚。

关于自动类聚的实现,可以参考一下简并算法:文本自动聚类算法的实现:卢亮当时很聪明地想到了使用Yahoo!目录完成了一个中文相关分类语料库,自动类聚(匹配)技术同时也应用在上下文广告(比如:AdSense)等方面。

作者:车东 发表于:2005-04-14 23:04 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

中文不支持,不过可以搜索到!

如果是没有meta标签的如文本文件不就搜索不到了?

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2005年04月14日 晚上11时13分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 周日:潭杯山-潭柘寺拉练

此 Blog 的后一篇日记是 TraCQ:缩短电子商务的最后一公里

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36