« 2005年06月 | (回到Blog入口) | 2005年08月 »

2005年07月 归档

2005年07月17日

自动摘要/分类技术在CMS中的应用

卢亮最近忙什么呢?BLOG也很久没更新了。上周的一次小聚才了解到:原来他一直在准备自动类聚技术,利用自动类聚技术改进一些现有BLOG发布系统的关联机制:
1 文章的自动分类:
实现类似于目前news.google.com首页那样的自动主题分类,目前初步规划是将内容分成10个大类,据说目前的精确度已经在95%以上;
2 相关文章功能:
类似于很多门户网站新闻那样的相关新闻,不要小看每篇新闻中那后面几篇相关新闻:在没有全文索引机制之前,像新闻这样的发布系统管理的文章之间的关联是很少的(孤岛),所以每篇新闻的生命周期只有短短的2天(从首页上下去以后,除了用户主动搜索就很少有被再次访问到的机会了)。BLOG也是类似的问题,要知道:用户的注意力是稀缺资源,只有少数的BLOGGER的内容能得到足够的注意力/反馈,很多人开始BLOG后,都是由于无法得到足够的反馈而放弃了。BlogChina上每天上万的发布量,但是真正能被其他人看到的却是非常少的。而相关文章:无疑是一种增加内容之间相互联系/反馈很有效的机制。

更让我佩服的是卢亮的太太:明珠,她是目前这些应用的主要实现者。

tag.bokee.com是第一步,让用户自己定义TAG作为关键词,如果用户没有输入TAG,则利用自动主题提取机制将内容类聚在一起。这部分的应用在BlogChina每篇文章后面的“手拉手”模块中。而再下一步:可能就是类似于AdSense那样的上下文广告关联了吧,将所有的浏览行为都变成了一次隐含的搜索。
related_blogchina.png
根据我目前观察:TAG仍然是质量非常高的主题提取机制,毕竟经过人工编辑的文章主题还是非常明确的。

按此阅读全文 "自动摘要/分类技术在CMS中的应用" »

2005年07月23日

在blog中加入Y!Q相关搜索

Yahoo!的Y!Q搜索服务从今年2月份推出后了,今天终于解决了JavaScript的escape导致的中文编码问题,其原理和很多Bookmarklet一样的。

Y!Q服务允许你将一段文字(而不是主题词):直接提交给搜索引擎进行相似文章查找。
yq_chedong.png
这样会比自己提取主题词要方便很多,比如在blog(或者其他发布系统,我使用的是MT)中:可以设置以下代码将BLOG的标题做为“上下文”提交给搜索引擎。

按此阅读全文 "在blog中加入Y!Q相关搜索" »

2005年07月25日

[雅虎招聘] 搜索营销产品部 C++工程师

资深C++工程师
1. 热爱技术,相信技术可以成为你的终身职业;
2. 有6年以大型软件开发经验,有大型网站开发经验更好;
3. 掌握面向对象设计开发方法,有 3 年以上C++语言开发经验;
4. 勇于、善于在短时间内学习新技术新技能;
5. 与团队协作、沟通能力很强;
6. 能在极大压力下按时完成下达的开发任务;
7. 熟悉大型软件开发流程,有一定的领导能力;

那么你加入Yahoo搜索营销平台技术部后:
1. 做为高级工程师参与世界级产品研发,开发/维护服务亿次以上访问的广告发布引擎;
2. 领导产品子项目的开发工作,管理有3-5名成员的团队;
3. 作为团队的技术指导,帮助/带领团队克服技术上的各种难题,涉及海量数据存贮、数据挖掘、搜索引擎、分布式处理、人工智能、中文分词等领域;
4. 享受在中国成长最快,最优秀的互联网公司工作的乐趣;

如果你希望在雅虎从事搜索引擎行业的工作和研究,请将简历(建议纯文本格式)寄到:

最后:记住最重要的是你要Play Hard!

按此阅读全文 "[雅虎招聘] 搜索营销产品部 C++工程师" »

Google新界面吗?


google
Originally uploaded by AtlDucksKO23.
广告部分被加强了
最早从: slashdotcn.org/
看到的

按此阅读全文 "Google新界面吗?" »

2005年07月29日

RSS订阅服务改变门户游戏规则

最近发现Google的个性化主页也加入了RSS订阅的支持:
google_personal_rss.png

前2天我听说BlogLines的内容量相当于Google索引量的1/4,昨天查了一下:确切的说法是6月份:Bloglines收录文章数量达到5了亿,目前Google的索引量约为80亿。
0.5 : 8 = 1 : 16

虽然各种搜索引擎的几十亿网页也只占整个互联网上不到5%的内容,但是相对于一个搜索引擎来说:这5亿RSS FEED中的内容却是相对质量较高的一批数据源。因此说BlogLines的索引量是Google的1/4也是有道理的(最重要的1/4)。

注释:
BlogLines有多少RSS FEED:GrassLand目前的RSS FEED数量为3000个,文章数量为30万,按照这个比例:BlogLines上的FEED数量应该在百万级(WebLeon: bloglines的feed数量为248万)。

按此阅读全文 "RSS订阅服务改变门户游戏规则" »

关于 2005年07月

此页面包含了在2005年07月发表于车东[Blog^2]的所有日记,它们从老到新列出。

前一个存档 2005年06月

后一个存档 2005年08月

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36