Google Desktop: 个性化的内容搜索开端


2005-01-09
个性搜索的技术与市场
目前网络蜘蛛基本是瞎眼蜘蛛,依据着简单可数的几个规则爬行着,从来就不知道自己要到哪里去,只会毫无目的地抓取芜杂的信息,处理互联网表层信息,很勤恳但毫无个性。而个性化搜索引擎则需要有智慧的网络蜘蛛,有方向、有目的、有计划地抓取信息,同时肩负着寻找、发现、定位、提交符合要求的信息的任务。它不仅能自动自发地自我管理,而且能感知自身所处的环境并作出反应;不仅具备专业的知识,而且具有学习能力;对信息的处理不仅有广度,而且有深度;不仅有预处理也有后处理。

Findory
has just introduced personalized RSS feeds based on keyword searches of their weblog and/or news databases. A Findory personalized feed will suggest new articles and postings based on YOUR reading history.

2004-12-19 个性化搜索==>个性化蜘蛛
最近使用Lilina新闻聚合器,经常修改/更新RSS订阅列表,有时候在想:要是能根据自己的兴趣,自动更新就好了。

今天和CNBlog的讨论中,大家都这样感觉:
个性化的搜索首先不应单纯靠在服务器端实现的,虽然搜索引擎在服务器端的搜索能否进行一些简单的过滤,但是每个人特征太复杂,所以不能指望在服务器端通过几个滚动条来实现更复杂的过滤实现。况且目前很多个性化搜索需要预先输入那么多预制信息。(更何况这些信息有时候也是经常变化的)

个性化搜索最重要的前提是首先知道个人的特征:如何了解一个人的特征呢?当然是从自己以前最常访问的信息中:网站,文档,邮件/即时聊天记录中。这么多特征,很难在每次搜索都提交给服务器端的(即使服务器知道,也很动态根据某一个人的特征进行过滤和排序优化的)。

所以解决个性化搜索的最好办法是给用户自己一个搜索引擎,让它专门定向抓取用户感兴趣的内容。所谓个性化搜索:应该是基于个人的(分布式的)定向数据采集基础上的。

很多搜索引擎目前已经推出了桌面搜索,下一步可能会是个性化的蜘蛛:根据用户的使用习惯进行定向的数据采集,并结合RSS FEED进行个性化数据推送。

实现有点像很多早期的Web浏览加速软件,利用你上网的空闲时间预先缓存你常去网站的网页(其实目前你的IE上MSIEcrawler就正在这样做)。

而个性化蜘蛛会:
1 统计访问频度,得到你经常访问的信息源特征,比如某个:网站;
2 然后自动预测/抓取相关网站的内容,而RSS FEED大大方便了这种机器之间的数据交换;
3 在通知你的新闻订阅夹中:根据你的兴趣向你推送信息,比如:你最近星期一直在寻找的PS2 最近在某店打折;

Google Desktop已经知道了你的web缓存文件夹(IE/Mozilla),知道了你的邮件(gMail),说不定一下个版本就可以随着你的喜好,动态的进行提前抓取和数据推送呢。

总之:Google让我明白了个性化搜索,不是只是个性化的过滤/排序,更重要的是个性化的内容抓取。,但是核心仍然是一个全球网页搜索的通用搜索。个性化搜索必须是在此基础上的个性化。


2004-10-16: Google Desktop搜索的安装/试用:

安装后会看到Google在本地的发布了一个WEB服务端口:http://127.0.0.1:4664/

在后台可以看到有一下和Desktop相关的进程在运行
GoogleDesktop 3M
GoogleDesktopCrawle 10M
GoogleDesktopIndex 8M
GoogleDesktopOE 3M
...


平均CPU占用在10%以下(2.2G):

不支持中文分词:
目前分词是按照英文模式:按照字符/非字符方式切分,对中文句子没有进行分词,因此对于非空格分割的句子只能通过整句查询。

字符集:
所有的数据都转成UTF-8,GB2312中文的邮件标题显示大部分会乱码,回复时,中文标题会乱码。

其他:
Google的邮件搜索结果不直接通过客户端打开邮件内容而是显示邮件的页面(有标引),
并且直接有回复,全部回复,新建邮件的快捷链接: Reply | Reply to All | Compose

过滤和排序:
有按照数据源类型的过滤:网页历史、邮件、文档等;
时间是缺省的排序条件:也是进入索引的顺序,索引器会优先索引最近的邮件,网页;

此外,4664还提供了和一个网页缩略图服务,在搜索结果是网页时:能够自动生成一个缩略图在结果右侧。
google_desktop.png

作者:车东 发表于:2004-10-16 18:10 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

现在看起来,也许google很多产品或服务是围绕个性化搜索而进行的:gmail, groups, blogger, desk search, toobar, news alert, adsense, froogle wishing list...用这些工具、服务来收集个人信息,已经很完整啦!

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2004年10月16日 下午06时31分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 我的即时贴吧

此 Blog 的后一篇日记是 Plaxo:Email是人与人之间的URL

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36