MSN推出带有自动类聚功能的搜索引擎 (车东[Blog^2])

对于搜索结果的丰富程度有2个方面，一方面是搜索引擎的索引量，不进入索引肯定是搜索不到的；另外一方面是展现：如何在有限的范围内(比如 top 10)消除重复/或者近似的内容，展现更多样性的结果。目前的搜索引擎已经利用了一些简单的类聚方式提高搜索结果的广泛性，比如：
根据站点域名类聚：每个网站的相关结果只显示1条或2条，如果需要缩小搜索范围，可以使用[站内搜索]获得更多内容；
根据网页内容标题/摘要进行类聚：在搜索过程重相同标题的网页或者网页相似内容的结果将被省略掉，这样用户就有可能看到后面更多样的结果了；
相关搜索：增加更多的关键词，帮助缩小搜索范围，这可能也是搜索引擎逐渐都增加了“相关搜索”的原因吧；

从MSN Search Blog上看到：msnsearch's WebLog : Search Results Clustering

试用了一下：的确非常不错。
自动分类技术将是下一步改善搜索效率的一个很重要的方面，因为很多用户面对搜索出来的成千上万条结果没有一页一页的翻找的耐心，而又不会使用更多关键词帮助缩小搜索范围，这样搜索引擎搜索出来的内容真正被用户使用的，可能只有最前面很少的一部分。

如果说目前的海量网页搜索引擎只是帮助用户找到了和快速定位到一些已知问题的目标，那么对于一些模糊信息，如果搜索引擎根据内容能将头几百条中的内容按照一定特征“类聚”起来，相当于帮助用户快速浏览了TOP 1000条结果，帮助用户在更大范围内帮助快速缩小搜索范围并定位到需要的主题。

所以我感觉自动分类技术相当于在不增加索引量的情况下进一步提高搜索引擎的广泛度和可用度。

带有类聚功能的引擎，比如：Vivisimo很早就开始出现了:
但是为什么一直没有推广开呢？原因很简单：速度。Vivisimo是META引擎：就是利用其他搜索引擎的搜索结果进行再加工。其速度当然受到非常多的限制，是不可能在大并发用户访问压力下保持足够快的响应速度。

Registrant:
Microsoft Corporation
1 Microsoft Way
Redmond, WA 98052
US

Domain name: DIRECTTAPS.NET

Administrative Contact:
Administrator, Domain domains@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080
Technical Contact:
Hostmaster, MSN msnhst@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080

Registration Service Provider:
DBMS VeriSign, dbms-support@verisign.com
800-579-2848 x4
Please contact DBMS VeriSign for domain updates, DNS/Nameserver
changes, and general domain support questions.

Registrar of Record: TUCOWS, INC.
Record last updated on 27-May-2004.
Record expires on 30-Apr-2006.
Record created on 30-Apr-2001.

Domain servers in listed order:
DNS1.DIRECTTAPS.NET 131.107.1.7
DNS2.DIRECTTAPS.NET 131.107.1.240

Domain status: REGISTRAR-LOCK

其实对于自动类聚：一般的META引擎只能根据其他引擎返回的内容摘要进行类聚，MSN有自己的引擎，应该可以做更多的优化和控制。

而就类聚速度问题的改善：我觉得搜索引擎不一定每次搜索都实时出类聚结果，而是后台每天将最常用的查询预先缓存好。毕竟需要类聚的一般都是比较模糊的查询词和搜索结果数量过大的时候才用的到。不一定在用户搜索目标很明确的时候还进行过多的类聚。

关于自动类聚的实现，可以参考一下简并算法：文本自动聚类算法的实现：卢亮当时很聪明地想到了使用Yahoo!目录完成了一个中文相关分类语料库，自动类聚（匹配）技术同时也应用在上下文广告（比如：AdSense）等方面。

作者：车东发表于：2005-04-14 23:04 最后更新于：2007-04-15 19:04
版权声明：可以转载，转载时请务必以超链接形式标明文章 MSN推出带有自动类聚功能的搜索引擎的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/000745.html

« 周日：潭杯山－潭柘寺拉练 | (回到Blog入口)|(回到首页) | TraCQ：缩短电子商务的最后一公里 » [再编辑]

车东[Blog^2]

良好引用，良好结构，良好导航 Well referenced and well organized, with easy navigation

MSN推出带有自动类聚功能的搜索引擎

Comments

发表一个评论

搜索

相关文章

关于