基于群体分析发现网站的相关性


今天看:

其中谈到了Amazon的a9.com中的搜索历史等功能对于用户的帮助。忽然想到Google的搜索结果页上有一个不怎么常用的相关网站功能:其实是一个很有用“发现”的功能,这种发现完全是不基于“字面”的,我感觉是经常看当前网网站的人,还经常看哪些内容的用户群体统计结果。

具体是怎么实现的呢?设想了一个实现的方案:在搜索结果中(也许是Toolbar/搜索历史等来源)将用户每次点击都记录下来,然后根据域名汇总:然后建一个用户=>访问过的网站的反相索引。通过统计就可以发现:点击chedong.com上内容的用户,还经常去看哪些网站。当然:如果超市中“牛奶”是几乎每个人都购买的,就不应该出现在“牙膏”的相关推荐中,而"牙刷"就是一个比较好的推荐。因此还需要根据这些网站的流行度和同现度综合加权,就找到了当前网页(网站)的相关网页。尿片和啤酒的经典统计案例应该也是类似的机制。

Amazon的买了这本书的人:同时还喜欢什么书。豆瓣的“猜你会”喜欢什么书。应该也是类似机制实现的。

请教:
在数据挖掘中:这种同现度的发现机制的专业说法(术语)应该是什么?"association rules" “SPSS的clementine
目前有那些已经实现的方案和统计工具?weka spss

附:目前的related:www.chedong.com/ - Google 搜索 怎么这么像我的书签啊?

Not isaacmao.com - BlogBus.com
Not isaacmao.com,isaac's backup site. If you were redirected from accessing www.isaacmao.com, it means the isaacmao.com is still being blocked.
www.isaacmao.com/ - 32k - 网页快照 - 类似网页

Blog Branding Topku:陈志东
A Blog edited by topku, interacting with the living web and the vivid world.
www.topku.com/ - 90k - 网页快照 - 类似网页

六翼的天使| Blog of Seraphim
blog是Liang Lu 六翼自己设置的个人博客blog网站,博客blog 内容主要涉及中文博客blog 的方方面面,博客blog 主要书写个人的生活,感悟,对人生的看法,社会观点。 六翼博 客blog 合欢第十一章合欢第十章心尚止水图片博客与博客吧合欢第九章让我们一起捏造 ...
blog.wespoke.com/ - 101k - 网页快照 - 类似网页

Jedi's BLOG | Jedi.org
繁体中文部落格 (blog). 内容包括但不限于 Movable Type 及其他程式的 hack, 电影心得, 听力学, 随手乱拍的照片, 以及生活之中闪过的吉光片羽.
jedi.org/blog/ - 39k - 网页快照 - 类似网页

CNBlog: Blog on blog
CNBlog: Blog on blog ==> blog.CNBlog.org.
www.cnblog.org/blog/ - 1k - 网页快照 - 类似网页

Feedsky
发布图标,和朋友分享你的内容 发布图标. 可以看到有多少人订阅... 订阅图标. »最热 的Tag:. IT业界 教育学习 情感生活 互联网 汽车房产 文化随笔 电脑技术 · 旅游风俗 娱乐 休闲 商业经济 时尚流行 新闻媒体 更多Tag... Feedsky搜索: ...
www.feedsky.com/ - 8k - 网页快照 - 类似网页

DBA notes
数据库管理员备忘。提供技术参考,数据库管理优化等,Oracle与开源技术的结合运用研究。
www.dbanotes.net/ - 45k - 网页快照 - 类似网页

klogs.org
最近文章. sorry · 好玩的Web Office工具 · Webæ–¹å¼ çš„å…±äº«ç™½æ ¿ï¼šgliffy · ä¹±ç 给大伙儿添麻烦了 · æµ‹è¯•å ˆæ‹ çš„å ‘å¸ƒåŠŸèƒ½ · æŸ · äººé™…å…³ç³»ç»´ç³»çš„ä¾ æ‰˜ · 国内web2.0网站的logoé›†å ˆ ...
www.klogs.org/ - 15k - 网页快照 - 类似网页

豆瓣网
读书、电影方面的评论,含网上购书价格比较。
www.douban.com/ - 13k - 网页快照 - 类似网页

作者:车东 发表于:2006-03-19 15:03 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: 基于群体分析发现网站的相关性:

» Google类似网页的"算法"之一 来自 Seo Vista
车东Blog讨论了Google类似网页的结果是如何算出来的.说到算法,象俺初二代数就不及格的肯定是没有办法谈的.俺就谈谈老早做SEO垃圾时的实际发现吧.其... [阅读更多细节]

Comments

我怀疑这个功能是根据内容去挖掘的,而不是通过访问记录去挖掘的

google search history中的trender虽然也有这种功能,但是很不准,很很很不准。

你说的这种访问记录,等于在现在超市中运用的统计程序.
这种统计是相对而说的.

这种分析一般叫亚马逊系统,因为最早好像是亚马逊在用的

在我使用过程中,将它叫做 [同好者推荐]系统

04年初就做这个了呵呵

>>在数据挖掘中:这种同现度的发现机制的专业说法(术语)应该是什么?

association rules, 你超市的例子,正是學習association rules的經典例子,是為:market basket analysis

>>目前有那些已经实现的方案和统计工具?

工具方面﹐中小型資料可以用SPSS 的clementine , 較為方便,不過如果大型資料,很多 research topic 也是在研究中的。

应该是google的后台分析,搜索引擎的发展,最终还是为了满足用户的需求,而现实社会中人的关系或者说人群的兴趣爱好是最能满足用户的查询目标.网络很大,圈子很小,哈哈:)

这个类似网页并不象Google自己解释的那样,而是和Alexa里的类似网页差不多,一般来自目录或友情链接等,比如说你在yahoo或sohu的同一个目录里的网站,或在其他网站的友情链接里同时出现的网站。

这个跟标签的相关标签差不多
举例来说,"旅游"为何跟"丽江"会相关,是因为他们一起被人使用过

这个功能非常值得引起注意,特别是对sns的行业应用来说,我们可以分析出用户的行为,然后做适当的导引。

零售业似乎叫做“商业智能”。
值得留意的是,它的挖掘可以是两层的,既可以是直接目标的相关性,也可以是tag/类别的相关性。

google的相似网页里,有些内容的相关性相距甚远。对用户有一定帮助作用,但还不完善。

你说的这种访问记录,等于在现在超市中运用的统计程序.
这种统计是相对而说的.

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)