车东[Blog^2]: 搜索引擎动态|Search Engine 归档

最新研究：用户搜索变得越来越复杂（就是搜索时候使用的关键词越来越多啦）

用户的搜索越来越复杂：25.61%用户用3个关键词， 32.58%使用2个关键词，19.02使用1个关键词。
Searches Get More Complex New study shows, " Of all the search phrases world wide, 32.58 percent of the people use 2 word phrases, 25.61 percent use 3 word phrases and 19.02 percent use a 1 word phrase."

[via WebmasterWorld]

很明显这是应该基于西方语言的统计，中文用户目前搜索引擎使用水平至少比英文用户落后1年以上。

车东发表于 2004年02月10日上午11时07分 | 全文 | 评论 (3)

最新研究：用户搜索变得越来越复杂（就是搜索时候使用的关键词越来越多啦）

用户的搜索越来越复杂：25.61%用户用3个关键词， 32.58%使用2个关键词，19.02使用1个关键词。
Searches Get More Complex New study shows, " Of all the search phrases world wide, 32.58 percent of the people use 2 word phrases, 25.61 percent use 3 word phrases and 19.02 percent use a 1 word phrase."

[via WebmasterWorld]

很明显这是应该基于西方语言的统计，中文用户目前搜索引擎使用水平至少比英文用户落后1年以上。

车东发表于 2004年02月10日上午11时07分 | 全文 | 评论 (3)

Google基于HillTop算法的更新

从吴泽欣的留言，看到一篇关于Google基于HillTop算法的更新的中文翻译：Bharat：Google的工程师，他在2001年获得了HillTop算法的专利，并且授权给了Google。在与PR算法相比之下，Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。Google的HillTop算法现在已经能更好的与旧的算法(PR算法)联合起来工作。根据观察HillTop算法比起它在2000年刚设计的时候已经有了很大的进步。显然这也是2003年11月16日“佛罗里达”更新中影响的一个最主要的算法。

非常感谢吴泽欣，和Google基于HillTop算法的原文相比，还是有些出入，重新整理如下：有一些补充和修正
建议还是阅读Bharat写的关于HillTop算法论文(多伦多大学计算机系)

按此阅读全文 "Google基于HillTop算法的更新" »

车东发表于 2004年02月13日傍晚08时44分 | 全文 | 评论 (2) | 引用通告 (1)

搜索引擎作弊（WEB SPAM）的分类

White Paper : The Classification of Search Engine Spam

2005-02-18:
Search Engine Spam Defined - by Spider Food

按此阅读全文 "搜索引擎作弊（WEB SPAM）的分类" »

车东发表于 2004年03月12日上午11时31分 | 全文 | 评论 (0)

Google的个性化搜索

Google的个性化搜索截图

按此阅读全文 "Google的个性化搜索" »

车东发表于 2004年03月30日下午05时25分 | 全文 | 评论 (1)

Google悄悄跟踪用户点击：有可能根据搜索结果点击率改善排名

GOOGLE的界面中很早就已经加入了基于鼠标事件的用户点击系统，比如这样一个搜索结果的标题链接：
<a href=http://www.geeklog.net/staticpages/index.php/CVS onmousedown="return clk(15,this)" target=nw>Geeklog - Anonymous<font color=CC0033>CVS</font> Access</a>

在这个链接的点击过程中，会触发一个鼠标事件：通过clk函数，会讲当前URL的目标链接地址和这个链接的排位发送到统计服务器上，这个请求是向页面中增加一个图片对象，从而向统计服务器发出一个图片HTTP请求实现的，在向统计服务器发出请求的时候，通过JAVASCRIPT讲一些预先设置好的参数传向统计图片服务器。
比如上面的鼠标点击：
会将当前结果的位置：第15条
当前结果的目标地址：本链接对象
传递给图片服务器，从而产生一个URL请求，而浏览器还会将当前的URL做为referer传递给图片服务器，从而图片服务器上还可以进行但前关键词和搜索条件的统计。

function clk(n,el) {if(document.images){(new Image()).src="/url?sa=T&start="+n+"&url="+escape(el.href);}return
true;}

Google通过用户的点击获得了各种位置URL的点击率统计，从而有可能进行基于用户点击统计反馈的排名调整或者是一种不定期的算法改进质量跟踪。我看到的最早的相关Google的鼠标事件跟踪的讨论从去年(2003)4月份就出现过

按此阅读全文 "Google悄悄跟踪用户点击：有可能根据搜索结果点击率改善排名" »

车东发表于 2004年05月04日夜间12时35分 | 全文 | 评论 (4) | 引用通告 (1)

Google搜索博客??

Google将推出博客搜索? - 有风的季节：
Photo Matt blog的Matthew Mullenweg说，“拿我的博客站点来说，工作日志上显示了GoogleBot对这个博客站点及其他站点的atom.xml及index.rdf文件又随机检索请求发生。这些文件通常位于根目录或相关子目录中（类似/blog）。这些站点均运行WorPress（一种网志工具），而且我敢保证这些站点上压根就没有提及或提供有atom.xml或index.rdf的链接。这就意味着GoogleBot在推测这些文件应该在那儿。”

按此阅读全文 "Google搜索博客??" »

车东发表于 2004年05月17日上午10时31分 | 全文 | 评论 (1)

Google官方网站增加对SEO(Search Engine Optimization)的说明

Google官方网站增加对SEO(Search Engine Optimization)的说明：
Google Information for Webmasters：
包括一些SEO服务商对网站用户的欺骗和误导说明和受到欺骗后的举报方法等。

按此阅读全文 "Google官方网站增加对SEO(Search Engine Optimization)的说明" »

车东发表于 2004年05月29日下午02时51分 | 全文 | 评论 (3)

2004 Infonortics 搜索引擎年会文档归档

风语者整理： Search Engine Meeting Conference

按此阅读全文 "2004 Infonortics 搜索引擎年会文档归档" »

车东发表于 2004年05月29日晚上11时32分 | 全文 | 评论 (2)

MoreGoogle提供的网页缩略图服务

2004-11-16
新推出的Google Desktop Search也提供了一个缩略图功能：
它能对网页缓存中的页面进行缩略图生成，你搜索到的结果页面都有缩略图在右面。

按此阅读全文 "MoreGoogle提供的网页缩略图服务" »

车东发表于 2004年06月19日上午11时12分 | 全文 | 评论 (0)

Baidu Tips: 百度小提示

小提示:输入自己的名字，便可看到有谁与您同名，也许还可看到别人对您的评价
小提示：如果您打不开某个网页结果，请点击该结果后面的百度快照，即可查看该网页了
小提示:百度提供计算器功能，输入"234-105"，点击搜索按钮，即可得到计算结果
小提示:输入"北京长城饭店电话"即可查到饭店的电话号码
小提示:搜电影、电视剧、小说，用"《》"可得准确结果，如搜"《手机》"可准确得到该电影信息
小提示:想知道历史上的7月13日发生了什么事情，搜"7月13日"即可
小提示:输入您的生日搜索一下，也许可以找到与您同年同月同日生的人
小提示:想了解吴敬琏的简历，搜"吴敬琏简历"即可
小提示:想知道什么是博客，搜"博客是"，即可得到答案
小提示:想知道刘德华的生日，搜"刘德华生日"即可
小提示:想找蔡依林的写真图片，搜"蔡依林写真"即可
小提示:想知道谜语"三月荷包尚未开"的答案，直接搜"三月荷包尚未开"，即可得到答案"春卷"
小提示:直接输入拼音，百度会返回最相符的关键词供您参考，如"xigua"，百度将提示"西瓜"
小提示:不小心输入了错别字，百度会提示您正确的关键词，如"蛋吵饭"，百度将提示 "蛋炒饭"
小提示:百度可搜索3亿中文网页，是全球最大的中文搜索引擎
小提示:要找诗句"随风潜入夜"的下句，直接搜"随风潜入夜"，即可得到下句诗词
小提示:想知道景点九寨沟的旅游信息，搜索景点名称"九寨沟"即可
小提示:百度支持度量衡换算，输入"3升=?立方米"，点击搜索按钮，即可得到换算结果
小提示:想要更精确的结果，只需输入更多关键词，如搜"后天电影导演"可直接找到该导演信息
小提示:查某支股票价格行情，直接搜股票代码 "600600"，即可得到该支股票的最新价格

车东发表于 2004年06月26日夜间01时39分 | 全文 | 评论 (1)

站外搜索命令：看看其他网站如何引用自己网站上的内容

site:命令是很多搜索引擎的站内搜索命令，那么-site: 命令就是站外搜索了。

通过站外搜索：可以看到其他网站如何引用你网站上的内容：
Google搜索: -site:www.chedong.com "www.chedong.com"
百度搜索：-site:www.chedong.com "www.chedong.com"

基于Yahoo!技术的搜索引擎是用 domain:命令：类似功能为：-domain: 命令
http://www.yisou.com/search?p=-domain%3Awww.chedong.com+%22www.chedong.com%22&lang=all

按此阅读全文 "站外搜索命令：看看其他网站如何引用自己网站上的内容" »

车东发表于 2004年09月28日下午03时42分 | 全文 | 评论 (1) | 引用通告 (3)

Google Desktop: 个性化的内容搜索开端

2005-01-09
个性搜索的技术与市场：
目前网络蜘蛛基本是瞎眼蜘蛛，依据着简单可数的几个规则爬行着，从来就不知道自己要到哪里去，只会毫无目的地抓取芜杂的信息，处理互联网表层信息，很勤恳但毫无个性。而个性化搜索引擎则需要有智慧的网络蜘蛛，有方向、有目的、有计划地抓取信息，同时肩负着寻找、发现、定位、提交符合要求的信息的任务。它不仅能自动自发地自我管理，而且能感知自身所处的环境并作出反应；不仅具备专业的知识，而且具有学习能力；对信息的处理不仅有广度，而且有深度；不仅有预处理也有后处理。

Findory
has just introduced personalized RSS feeds based on keyword searches of their weblog and/or news databases. A Findory personalized feed will suggest new articles and postings based on YOUR reading history.

2004-12-19 个性化搜索==>个性化蜘蛛
最近使用Lilina新闻聚合器，经常修改/更新RSS订阅列表，有时候在想：要是能根据自己的兴趣，自动更新就好了。

今天和CNBlog的讨论中，大家都这样感觉：
个性化的搜索首先不应单纯靠在服务器端实现的，虽然搜索引擎在服务器端的搜索能否进行一些简单的过滤，但是每个人特征太复杂，所以不能指望在服务器端通过几个滚动条来实现更复杂的过滤实现。况且目前很多个性化搜索需要预先输入那么多预制信息。（更何况这些信息有时候也是经常变化的）

个性化搜索最重要的前提是首先知道个人的特征：如何了解一个人的特征呢？当然是从自己以前最常访问的信息中：网站，文档，邮件/即时聊天记录中。这么多特征，很难在每次搜索都提交给服务器端的（即使服务器知道，也很动态根据某一个人的特征进行过滤和排序优化的）。

所以解决个性化搜索的最好办法是给用户自己一个搜索引擎，让它专门定向抓取用户感兴趣的内容。所谓个性化搜索：应该是基于个人的（分布式的）定向数据采集基础上的。

很多搜索引擎目前已经推出了桌面搜索，下一步可能会是个性化的蜘蛛：根据用户的使用习惯进行定向的数据采集，并结合RSS FEED进行个性化数据推送。

实现有点像很多早期的Web浏览加速软件，利用你上网的空闲时间预先缓存你常去网站的网页（其实目前你的IE上MSIEcrawler就正在这样做）。

而个性化蜘蛛会：
1 统计访问频度，得到你经常访问的信息源特征，比如某个：网站；
2 然后自动预测/抓取相关网站的内容，而RSS FEED大大方便了这种机器之间的数据交换；
3 在通知你的新闻订阅夹中：根据你的兴趣向你推送信息，比如：你最近星期一直在寻找的PS2 最近在某店打折；

Google Desktop已经知道了你的web缓存文件夹(IE/Mozilla)，知道了你的邮件(gMail)，说不定一下个版本就可以随着你的喜好，动态的进行提前抓取和数据推送呢。

总之：Google让我明白了个性化搜索，不是只是个性化的过滤/排序，更重要的是个性化的内容抓取。，但是核心仍然是一个全球网页搜索的通用搜索。个性化搜索必须是在此基础上的个性化。

2004-10-16: Google Desktop搜索的安装/试用：

按此阅读全文 "Google Desktop: 个性化的内容搜索开端" »

车东发表于 2004年10月16日下午06时31分 | 全文 | 评论 (1)

Google Suggest ;-) 基于js的动态下拉菜单

from Google Blog

基本的原理是在当前窗口创建了一个iframe，然后将相关关键词的提示列表在iframe中，并通过列表点选将选定项放到搜索框中。

能这么快的能将所有相关关键词的检索数列出，看来所有的提示词已经提前进行了预搜索和数量记录。
试了一下"sex"，没有相关检索提示，看来对搜索词进行了严格的色情过滤。

另外：这一动态列表功能也应用在GMail的地址栏自动输入完成中，如图：

按此阅读全文 "Google Suggest ;-) 基于js的动态下拉菜单" »

车东发表于 2004年12月11日下午12时41分 | 全文 | 评论 (3)

膨胀中的spaces.msn.com服务

Googel: site:spaces.msn.com
spaces.msn.com 上约有 205,000 项符合的查询结果

Baidu: site:spaces.msn.com
找到相关网页约22,900篇

一搜：domain:spaces.msn.com
约 34,290 项

按此阅读全文 "膨胀中的spaces.msn.com服务" »

车东发表于 2005年01月09日下午01时10分 | 全文 | 评论 (2)

搜索门户正在逐步损害网络的原创动力

我很欣赏Kreny的态度：“请注明本文出处！” : Kreny's Blog。

因为在网上找资料的时候，我也经常会想方设法看到转贴的资料：转贴的资料一般都不如原文质量好：因为有心的原文作者经常还会保持文档的更新和相关资料的补充。中文网络环境中转载缺乏对出处的引用声明的确是是一个很大的问题。

而目前搜索引擎基于的超链分析机制从某些方面来说正在逐步损害网络的原创动力，比如：大网站由于自身PR很高和便于搜索引擎的收录：转贴小网站文章的文章后，往往不用链接形式标明文章出处的转贴者反而能获得比原作者更高的搜索结果排位，这在几次的搜索引擎排名竞赛中都得到了证明：其结果就是内容过度向个别门户网站集中，显然这不符合互联网非中心化的本质，正如Google Watch(针对Google的垄断，算法和隐私政策)的观察所指出的：其结果就只能是由于少数“门户”垄断造成的脆弱生态。而搜索引擎的超链分析也导致了无意义的反相链接竞赛，如果靠堆砌关键词和盗用他人成果，谁还来创新呢？

按此阅读全文 "搜索门户正在逐步损害网络的原创动力" »

车东发表于 2005年01月11日晚上11时18分 | 全文 | 评论 (3) | 引用通告 (3)

让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站

2005-01-17在我的网站上做了一个试验：在部分动态网页中嵌入了以下PHP代码：
echo date("Y-m-d H:i") . " Crawled by " . $_SERVER["HTTP_USER_AGENT"] . " @". $_SERVER["REMOTE_ADDR"
];

这样，抓取网页的Spider Agent信息和来源地址信息就做为网页内容被搜索引擎索引了。通过搜索结果可以告诉我Spider什么时候，从哪里（IP地址），用什么抓取访问了我的网站。

然后再通过站内搜索命令： site:chedong.com +特征词就能直接定位到这个spider信息段落，在我的网页上是crawled。今天早上我在Google上查： site:chedong.com crawled 已经能看到效果：
车东 Che, Dong
... Alexa流量统计： Hosted by Powweb.com 2005-01-15 22:00 Crawled by
Googlebot/2.1 (+http://www.google.com/bot.html) @66.249.71.47.
chedong.com/

说明： Googlebot/2.1于2005-01-15 22:00从66.249.71.47这台服务器进行了抓取。

2005-01-20 YST结果出现
MIME::Base64 - phpMan [英译汉]
MIME::Base64 - phpMan Command: man perldoc info search(apropos) ... 2005-01-17 23:02 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com ...
www.chedong.com/phpMan.php/man/MIME::Base64 - 2k - 2005年1月18日

2005-01-20 百度结果出现
车东 Che, Dong
...的某些条款可以放弃 [联系方式|Contact] Yahoo! Messenger: [My Bloginality
is INTJ] Alexa流量统计: 2005-01-18 23:01 Crawled by Baiduspider+(+
http://www.baidu.com/search/spider.htm) @202.108...

2005-01-31 MSN Search发布
SSL_CTX_flush_sessions(3) - phpMan
... 2635 mod_ssl/2.8.22 OpenSSL/0.9.7d PowWeb/1.1 Under GNU General Public License 2005-01-17 19:27 Crawled by msnbot/0.3 (+http://search.msn.com/msnbot.htm) @207.46.98.34

按此阅读全文 "让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站" »

车东发表于 2005年01月17日上午11时53分 | 全文 | 评论 (4) | 引用通告 (2)

+1 rel="nofollow" = 互联网为超链戴上的安全套?! ;-)

2005-01-20
昨天打开自己RSS订阅的时候：发现订阅的搜索引擎服务商blog和MT的anti spam blog全部指向了一个主题：nofollow
Google联合Yahoo! MSN和主要Blog服务提供商：推出一个新的搜索引擎收录服务标准，超链的rel="nofollow"属性。
2005-01-19 13:37 Preventing comment spam - Google Blog - Live
2005-01-19 13:19 The Most Tumultuous Show On Earth! - Yahoo! Search blog
2005-01-19 09:08 Massive weblog anti-spam initiative: rel="nofollow" - MT-Blacklist/Comment Spam Clearinghouse
2005-01-19 07:45 A Defense Against Comment Spam - Yahoo! Search blog

nofollow定义和robots.txt中的nofollow类似：原来的：<a href="http://www.exapmle.com">foo</a>如果加入nofollow属性<a href="http://www.exapmle.com" rel="nofollow">foo</a> 搜索引擎的蜘蛛程序将不再跟踪这个URL继续爬取，而对应的链接，在排名计算是也不会计算入目标网站的权重。

这个协议的意义在于：如果以前网站内容的发布者只能通过robots.txt进行页面级的内容收录控制的话，链接的nofollow属性更进一步，达到精确到页面内超链级别的索引收录控制：在一个页面中，哪些链接是页面发布者自主控制的，可以被搜索引擎收录的，哪些链接是发布者无法预期和控制，需要告诉搜索引擎spider不要进行收录。

2005-01-22
从某种程度上说：nofollow属性给超链接戴上了安全套，阻止不安全的spam病毒的传播。

2005-01-23
整个互联网真的需要/可能为SPAM带上安全套吗？反对nofollow的12个理由：Twelve Reasons against nofollow

1. nofollow does not prevent comment spam. nofollow并无法防止spam
2. nofollow is semantically incorrect. nofollow语意/语法上不正确（应该是 not follow / not to follow吧？）
3. nofollow harms the connections between web sites. nofollow损害了互联网之间的连接
4. nofollow is not useful for humans, just for search engines using PageRank or similar a technique. 对于用户来说是无意义的，指对搜索引擎的PageRank和类似技术有用；
5. nofollow could be used to shut web sites out. ~~nofollow应该被用于网站关闭后的声明~~nofollow 将可能被滥用,来封锁某些网站；
6. nofollow discriminates legitimate users as spammers. nofollow歧视合法用户：将他们等同于spammer（难道缺省所有的网站留言者都是spammer?!）
7. nofollow heists commentators' earned attention. nofollow标准的出台反而使得spammer从评论员和解说者中得到了更多的眼球。
8. nofollow will not stop comment spam. nofollow无法阻止评论spam
9. nofollow could be used to further discriminate weblogs. nofollow可被进一步引起对weblogs的歧视；
10. nofollow prevents the Web from being a web. nofollow = 网而不网
11. nofollow eliminates the dissemination of free speech. nofollow削弱了自由言论的传播；
12. nofollow was developed in privacy with only search engines companies taking part in the discussion. nofollow只是由参与讨论的有限的几个搜索引擎公司秘密提出。

按此阅读全文 "+1 rel="nofollow" = 互联网为超链戴上的安全套?! ;-)" »

车东发表于 2005年01月21日夜间01时20分 | 全文 | 评论 (6) | 引用通告 (3)

Google的“破窗”

其实可以用破窗效应来解释：被侵蚀的Google

破窗理论：如果有人打坏了一栋建筑上的一块玻璃，又没有及时修复，别人就可能受到某些暗示性的纵容，去打碎更多的玻璃。
类似的：Spam breeds more spam: Spam会传播更多的Spam

按此阅读全文 "Google的“破窗”" »

车东发表于 2005年02月02日下午01时41分 | 全文 | 评论 (2) | 引用通告 (3)

Google的中文相关搜索提示

截图如下：

和其他搜索引擎的相关关键词不同：
1 Google的相关搜索并非完全依赖搜索次数，第2行的关键词是根据抓取的新闻中的突发热门关键词的相关关键词出现频度，不一定字面上相关；
2 相关搜索关键词提示并非在所有的查询中都会出现，目前看来主要是针对含2，3个中文字的中文查询有相关关键词提示；

按此阅读全文 "Google的中文相关搜索提示" »

车东发表于 2005年02月17日下午01时17分 | 全文 | 评论 (1) | 引用通告 (1)

Google的个性化新闻：可再发布的搜索订阅

用户可以发布自己在Google新闻上的个性化搜索订阅：

这个功能也是我一直希望Add RSS to My Yahoo!服务能够提供的功能：针对个性化的再发布，方便用户进行信息聚合值后再他人分享。

按此阅读全文 "Google的个性化新闻：可再发布的搜索订阅" »

车东发表于 2005年03月13日夜间12时43分 | 全文 | 评论 (1)

利用Google Groups配置留言簿：注意防止SPAM

最近Google Groups的浏览已经提供了中文界面，用来做自己的留言簿绝对是一个很不错的主意，留言直接可以发送到创建者的GMail邮箱中，可以很方便的在GMail中进行消息跟踪和留言回复，同时又公开发布在Google Groups上。

但是最近也发现了很大的一个问题就是SPAM：由于Google Groups本身就是通过邮件和Groups界面2个途径进行提交。一方面很多垃圾邮件制造者可以方便的获得相应的邮件列表（转发）地址发送垃圾邮件，另外一方面Google Groups是可以设置为对外公开发布的：大量的WEB SPAM会利用这个CMS制造反相链接。

所以最重要的就是将提交由缺省的自动发布改成需要管理员批准：

目前(2005-03-29)Google Groups的后台管理界面还是英文。

按此阅读全文 "利用Google Groups配置留言簿：注意防止SPAM" »

车东发表于 2005年03月29日下午03时48分 | 全文 | 评论 (7)

Google收购Urchin

Urchin Web Analytics software and on demand services：Urchin的产品线中很重要的一个是日志分析产品：
Urchin 6 is a new approach to web analytics. One which looks at the entire online process of attracting and converting visitors and retaining customers. Each Urchin 6 report is designed to give you the specific information you need to help visitors find you online, navigate your website, convert into customers, and keep coming back. Urchin 6 On Demand starts at $495/month.

再联想一下：2月份Google成为ICANN顶级域名注册商。

按此阅读全文 "Google收购Urchin" »

车东发表于 2005年03月30日上午11时49分 | 全文 | 评论 (0) | 引用通告 (2)

MSN推出带有自动类聚功能的搜索引擎

对于搜索结果的丰富程度有2个方面，一方面是搜索引擎的索引量，不进入索引肯定是搜索不到的；另外一方面是展现：如何在有限的范围内(比如 top 10)消除重复/或者近似的内容，展现更多样性的结果。目前的搜索引擎已经利用了一些简单的类聚方式提高搜索结果的广泛性，比如：
根据站点域名类聚：每个网站的相关结果只显示1条或2条，如果需要缩小搜索范围，可以使用[站内搜索]获得更多内容；
根据网页内容标题/摘要进行类聚：在搜索过程重相同标题的网页或者网页相似内容的结果将被省略掉，这样用户就有可能看到后面更多样的结果了；
相关搜索：增加更多的关键词，帮助缩小搜索范围，这可能也是搜索引擎逐渐都增加了“相关搜索”的原因吧；

从MSN Search Blog上看到：msnsearch's WebLog : Search Results Clustering

试用了一下：的确非常不错。
自动分类技术将是下一步改善搜索效率的一个很重要的方面，因为很多用户面对搜索出来的成千上万条结果没有一页一页的翻找的耐心，而又不会使用更多关键词帮助缩小搜索范围，这样搜索引擎搜索出来的内容真正被用户使用的，可能只有最前面很少的一部分。

如果说目前的海量网页搜索引擎只是帮助用户找到了和快速定位到一些已知问题的目标，那么对于一些模糊信息，如果搜索引擎根据内容能将头几百条中的内容按照一定特征“类聚”起来，相当于帮助用户快速浏览了TOP 1000条结果，帮助用户在更大范围内帮助快速缩小搜索范围并定位到需要的主题。

所以我感觉自动分类技术相当于在不增加索引量的情况下进一步提高搜索引擎的广泛度和可用度。

按此阅读全文 "MSN推出带有自动类聚功能的搜索引擎" »

车东发表于 2005年04月14日晚上11时13分 | 全文 | 评论 (2)

登录了Google，反而不知道该搜什么好了……

Google Blog：Google推出了搜索的历史记录的查询：
和a9.com的服务不同：不仅是关键词的记录，还有对搜索结果点击的记录（包括时间）。这次Google将你的Search Session完整的记录下来了，的确比my.search.yahoo.com方便不少。

按此阅读全文 "登录了Google，反而不知道该搜什么好了……" »

车东发表于 2005年04月21日上午11时05分 | 全文 | 评论 (1) | 引用通告 (1)

Google在暗示一下代搜索技术？

从Google Blog上看到：
In fact generally we focus on the next generation of Google's crawling and indexing technology. We've got hard-core statisticians pondering how to measure search quality more accurately, and a slightly nutty project that we think might revolutionize the way that we organize and search structured information.

统计专家在Google一直是非常重要的角色：除了一直长期跟踪用户点击外，最近的个性化搜索历史更有助于从注册用户中从GMail后台人与人的邀请关系之间分析用户使用行为。但其中说到的：slightly nutty project是什么呢？会不会是自动分类……

按此阅读全文 "Google在暗示一下代搜索技术？" »

车东发表于 2005年04月23日上午10时13分 | 全文 | 评论 (5)

"i googlebot"：FlickR是一个很好用的图片搜索引擎

google-googlebot
Originally uploaded by Telendro.

这张图由于googleblog在国内无法访问，我在几个搜索引擎的图片搜索上：用"googlebot"这个关键词都没有找到，在FLICKR上用tag找到了，真的是又准又好。

按此阅读全文 ""i googlebot"：FlickR是一个很好用的图片搜索引擎" »

车东发表于 2005年06月27日晚上09时32分 | 全文 | 评论 (3)

Beijing@Google.earth

googlemaps_beijing
Originally uploaded by keso.

有点君临天下的感觉吗？又被Google玩了一次颠覆游戏。

按此阅读全文 "Beijing@Google.earth" »

车东发表于 2005年06月29日晚上11时02分 | 全文 | 评论 (0)

在blog中加入Y!Q相关搜索

Yahoo!的Y!Q搜索服务从今年2月份推出后了，今天终于解决了JavaScript的escape导致的中文编码问题，其原理和很多Bookmarklet一样的。

Y!Q服务允许你将一段文字（而不是主题词）：直接提交给搜索引擎进行相似文章查找。

这样会比自己提取主题词要方便很多，比如在blog（或者其他发布系统，我使用的是MT）中：可以设置以下代码将BLOG的标题做为“上下文”提交给搜索引擎。

按此阅读全文 "在blog中加入Y!Q相关搜索" »

车东发表于 2005年07月23日夜间03时16分 | 全文 | 评论 (6) | 引用通告 (3)

Google新界面吗？

google
Originally uploaded by AtlDucksKO23.

广告部分被加强了
最早从： slashdotcn.org/
看到的

按此阅读全文 "Google新界面吗？" »

车东发表于 2005年07月25日下午06时46分 | 全文 | 评论 (2)

基于桌面搜索的站内全文检索解决方案

如果索引的文档主要是Word/PDF/静态网页等，在内部的公共文件服务器上使用Google的桌面搜索：
http://in.tra.net:4664/
然后在这台服务器上架设一台反相代理服务器，代理桌面搜索的服务端口，并对外提供服务：就成了自己的站内/intranet全文检索解决方案，
http://in.tra.net:4664/ <==> http://in.tra.net/ <==> internet
可能需要在代理服务器上加入一些设置，将搜索出来的链接地址由本地地址改成发布地址。

类似的：将多台这样的桌面搜索服务器集群起来，还可以形成一个小型的分布式检索解决方案。X-Friend就是这样一款产品，内核也是Lucene(Java)全文引擎。

按此阅读全文 "基于桌面搜索的站内全文检索解决方案" »

车东发表于 2005年09月09日上午10时36分 | 全文 | 评论 (2)

通过Google webmasters tools提交SiteMaps：和Googlebot直接对话

昨天Google发布了BlogSearch
正确的提交自己的RSS还是要通过SiteMaps：

今天重新用了一下Google的SiteMaps网站：使用了一下提交网站认领（确认）功能。通过SiteMaps服务，网站管理员可以看到自己网站被Google抓取的情况。

具体的方法如下：Googlebot要求你在网站的FEED目录下创建一个空文件名，比如：
确认网站： http://www.niernier.com/
Google 已经抓取了您的网站 http://www.niernier.com/ ，并将向您展示某些结果。然而，为确保我们不会将您网站的隐私信息透露给他人，我们需要确认您的所有权。

1. 创建一个确认文件

创建名为 GOOGLE1cd1cd73cbe423a2.html 的空文件。该文件使 Google 可以对您进行唯一确认。您可以在任何文本编辑器中创建该文件。该文件应为空，因为我们只是检查其是否与您的 Sitemaps 位于同一位置，而不会阅读其内容。您可以在此处阅读有关此文件的详细信息。
2. 上传确认文件

您创建确认文件后，放置在您服务器上的 http://www.niernier.com/。

确认状态： http://www.niernier.com/GOOGLE1cd1cd73cbe423a2.html 已确认查看网站状态 »

« 返回我的 Sitemaps

在网站上创建这个文件(比如用touch)后：GOOGLE1cd1cd73cbe423a2.html
点击“检查”Googlebot会立刻访问这个文件：记录到的日志如下
66.249.65.141 - - [15/Sep/2005:16:13:27 +0800] "HEAD /GOOGLE1cd1cd73cbe423a2.html HTTP/1.1" 200 0 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Googlebot真是够省的，连内容都不要，只要HTTP HEAD中发现这个文件存在即可。
如果成功：这个网站是你的了！网站被认领的好处在于你可以看到Googlebot的访问日志：从而帮助你的网站进行死链检查。

比如我的网站的“ 统计信息”如下：
网站： http://www.chedong.com/blog/
在我们的常规抓取过程中发现的网址

作为我们常规抓取过程的一部分，我们一直在抓取您的网站。这包括来自您的网页以及其他网站网页的以下链接。以下我们列出了在此抓取过程中无法访问的网址，以及解释我们为什么无法访问的链接。

网址错误
http://www.chedong.com/blog/archives/000019.html HTTP 错误
http://www.chedong.com/blog/archives/000020.html HTTP 错误
http://www.chedong.com/blog/archives/000027.html HTTP 错误

按此阅读全文 "通过Google webmasters tools提交SiteMaps：和Googlebot直接对话" »

车东发表于 2005年09月15日下午04时17分 | 全文 | 评论 (3) | 引用通告 (2)

BLOG="Better Listings On Google" ? Google BlogSearch上的 BSP索引收录量比较

Google Blog搜索引擎中的BSP收录量比较：
BlogSpot.com Google收购的Blogger服务对应的发布服务： 9,598,736
MSN也是最大的赢家之一，使用：inurl:spaces.msn.com 搜索：MSN Spaces的索引量：8,691,835。
LiveJournal: 1,992,742
TypePad: 444,189
Yahoo!360: 20,885

按此阅读全文 "BLOG="Better Listings On Google" ? Google BlogSearch上的 BSP索引收录量比较" »

车东发表于 2005年09月18日夜间02时37分 | 全文 | 评论 (1)

Google为李开复博士新建的博客网志：kaifuleegoogle.com

还记得Google的斑竹吗？最近Google为李开复博士新建了一个博客网志：kaifuleegoogle.com Google与李开复博士：摘要如下
引言

欢迎光临我们新建的李开复博士的博客网志！正如许多人可能知道的，我们七月聘请了李博士来创建我们在中国的工程研究院。受聘后不久，李博士的前雇主微软公司就起诉李博士和Google公司。

我们想通过一个中文的临时博客网志帮助李博士和Google的中国朋友们了解事件的动态。因为法律问题有时候会非常复杂，可能会使一些人感到困惑。

在这个博客网志我们将会刊登各种各样的内容，让大家能了解事件的进展，包括诉讼摘要、法庭记录、和我们对事件的解读。我们也会经常透过某位我们的律师，与各位分享我们对本案的法律观点。合适的时候，我们也会请李博士写一些内容。

我们盼望这个博客网志能帮助中国的朋友们了解远在加州的复杂法律程序。

-- Google公司

按此阅读全文 "Google为李开复博士新建的博客网志：kaifuleegoogle.com" »

车东发表于 2005年09月18日晚上11时01分 | 全文 | 评论 (9)

你的blog用户都是通过那些搜索引擎找到你的？

Jeremy Zawodny's blog(英文)2005年10月份的referer统计
Originally uploaded by Che Dong.

我的网站上的统计：
Google 48.7 %
BaiDu 41.6 %
QQ 3.2 %
Yahoo 1.5 %
3721 1.4 %
YiSou 0.8 %
SoGou 0.7 %
NetEase 0.5
MSN 0.3 %

按此阅读全文 "你的blog用户都是通过那些搜索引擎找到你的？" »

车东发表于 2005年10月24日下午01时31分 | 全文 | 评论 (3)

Sohu Agent

最近从日志里发现了Sohu的Spider的踪迹: 感觉Sohu的蜘蛛命名还是应该更规范一些。



220.181.26.112 - - [24/Oct/2005:12:15:11 +0800] "GET /tech/unicode_java.html HTTP/1.1" 200 12857 "-" "sohu agent"

220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /tech/resin.html HTTP/1.1" 200 8221 "-" "sohu agent"

220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /bbcweb/206.htm HTTP/1.1" 200 1870 "-" "sohu agent"

之前写过一篇关于spider跟踪的文章：让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站。已经将Sohu agent加入了我的AWStats统计的robots.pm中。

按此阅读全文 "Sohu Agent" »

车东发表于 2005年10月25日下午04时15分 | 全文 | 评论 (1)

分布式搜索引擎search.minty dowser类聚引擎和larbin蜘蛛

search.minty.org:
Open, Distributed Web Search

Dowser:
Dowser is a research tool for the web. It clusters results from major search engines, associates words that appear in previous searches, and keeps a local cache of all the results you click on in a searchable database. It helps you keep track of what you find on the web.

Larbin:
crawler

按此阅读全文 "分布式搜索引擎search.minty dowser类聚引擎和larbin蜘蛛" »

车东发表于 2005年10月31日夜间02时37分 | 全文 | 评论 (1)

无处不在的分类技术：Google Groups增加相关论坛功能

感觉Google Groups一直是上下文匹配技术的试验田：除了文章列表右侧有动态的AdSense广告和相关网页内容提示外，我今天在论坛的后台管理界面中也看到了相关论坛。(不知道这2天后台管理一直不能用是不是这个原因。)

在没有相关论坛功能之前：大部分论坛全部都是“孤岛”，而基于主题自动提取的分类/类聚机制无疑会加大论坛之间的交互，

按此阅读全文 "无处不在的分类技术：Google Groups增加相关论坛功能" »

车东发表于 2005年11月09日下午04时37分 | 全文 | 评论 (1)

Urchin => Analytics Google的免费网站统计系统发布

Analytics: 分析学
发音：[ane'Iitiks]

从2005年3月底收购Urchin，到发布免费的Google Analytics，Google大约用了8个月的时间：而且产品是有中文界面的。

Google搜索本身的点击目标跟踪统计；
带有URL跟踪的toolbar；
Spider的全网抓取；免费的反相代理加速器；互联网上还有什么Google不知道的呢？

我下载了一下urchin.js：做了简单的分析；搜索引擎来源的定义中缺少百度和3721：看来还是太不了解中国市场。和我用AWStats的感觉一样。urchin.js文件大小为17k（这几乎和一个搜索结果页差不多大），假设analytics跟踪每天20亿PV的网站流量，Google每天要为这个服务付出34T bytes的带宽日流量，而20亿PV的日统计计算，尤其在Urchin如此丰富的统计项目下，计算量也是非常大的，硬件投资可是不小啊……

Google发布这样的工具：各种互联网营销工具的效果一目了然，每家搜索引擎的搜索竞价效果好坏对于用户来说都变得非常透明。同时Google对竞争对手的流量也获得了完全的控制。

按此阅读全文 "Urchin => Analytics Google的免费网站统计系统发布" »

车东发表于 2005年11月15日夜间01时19分 | 全文 | 评论 (19) | 引用通告 (1)

EurekSter + SWiki = swicki.eurekster.com

不是我不明白，这世界变化快，2年前我用过 EurekSter的搜索引擎，1年前我用过一个叫SWiki的在线服务，前一段时间挂了，转向去了另外一个地方，今天从WebLeOn那里看到：原来变成了SWicki。太奇怪了，一个基于社交网络的搜索引擎（你可以看到你朋友的搜索推荐）怎么变成了一个面向个人的搜索引擎呢？

按此阅读全文 "EurekSter + SWiki = swicki.eurekster.com" »

车东发表于 2005年11月18日夜间12时28分 | 全文 | 评论 (1)

自动分类引擎: PreviewSeek

who is keso
Originally uploaded by keso.

可能是个带有blogger名人库的自动分类引擎，会不时包含一些人物说明。不过再次说明：blogger们或者很多人尝试使用一个新的引擎的时候，经常会先ego surfing一把……查查自己的名字先
2005-11-27更新：感谢Tinyfool的提示，原来这个名人库就是Wikipedia（英文库）

按此阅读全文 "自动分类引擎: PreviewSeek" »

车东发表于 2005年11月25日晚上10时31分 | 全文 | 评论 (2)

中文网志年会 [WikiPedia]篇

11月初的中文网志年会上：中文WikiPedian也是其中很出色的一群，在国内看到这样一些为着一个至今仍被阻尼的服务仍然努力着的一群人让我很感动。
wikipedia是一个非常伟大的项目：wiki本身的架构充分体现了Well organized, well referenced with easy navigation的设计. 而更难得的是wikipedia这样一个开发式写作平台其后台良好的协作机制和民主中立的内涵等。这里有一份Wikipedia后台管理员发给我的wikipedia 2005年5月份的统计报告：点击下载，从中我们可以看到全世界范围内wikipedia的发展和在中文世界的发展情况。

这里我将7月份设置zh.wikipedia.org镜像的过程简要介绍一下：希望有更多的人能够帮助Wikipedia的国内镜像，而从中也能发现：Wikipedia网站结构本身的和目录无关性和域名无关性也是便于镜像的重要原因。在cnblog上使用的apahe配置如下：算是一个使用mod_proxy进行反相代理和mod_cache进行缓存加速的例子吧。

<VirtualHost *:80>
ServerName wikipedia.cnblog.org
ProxyPass / http://zh.wikipedia.org/
ProxyPassReverse / http://zh.wikipedia.org/

CustomLog "|/usr/local/sbin/cronolog /home/apache/logs/wikipedia_cnblog_access_log.%Y%m%d" combined

CacheRoot "/home/apache/cache/zh.wikipedia.org"
CacheSize 500000
CacheDirLevels 1
CacheGcInterval 10
CacheMaxExpire 240
CacheLastModifiedFactor 0.1
CacheDefaultExpire 10
</VirtualHost>

由于近期美国主站访问有阻尼：设置了/etc/hosts 中将zh.wikipedia.org指向其在法国的镜像（也是基于Squid建立的）
# wikipedia.org Europe mirror
145.97.39.155 zh.wikipedia.org

中文Wikipedia7月份以来的后台访问统计：
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia

Technorati : wikipedia

车东发表于 2005年11月26日夜间12时28分 | 全文 | 评论 (1)

利用blogsearch自动发现站外引用

毕竟不是所有内容发布系统都支持TrackBack ping机制，另外一个寻找文章被引用的方法就是通过一个搜集了丰富内容的搜索引擎，试下在Google的blogsearch上直接使用 link:命令查： link:chedong.com，再使用RSS/ATOM输出就得到了自己网站内容的引用监控：按时间排序

参考：
Blogger Hack：显示反向链接 - WebLeOn's Blog

按此阅读全文 "利用blogsearch自动发现站外引用" »

车东发表于 2005年12月06日下午01时49分 | 全文 | 评论 (4)

新浪IaskSpider

今天在日志中发现了新浪IaskSpider的踪迹：
219.142.78.210 - - [10/Dec/2005:00:00:36 +0800] "GET /phpMan.php/man/crond/8/ HTTP/1.0" 200 3926 "-" "iaskspider" 219.142.78.2
10.114661134144036588
219.142.78.210 - - [10/Dec/2005:00:00:36 +0800] "GET /phpMan.php/man/cytune/8/ HTTP/1.0" 200 8639 "-" "iaskspider" 219.142.78.
210.302381134144036603
219.142.118.65 - - [10/Dec/2005:00:00:50 +0800] "GET /phpMan.php/info/pathchk/ HTTP/1.0" 200 3136 "-" "iaskspider" 219.142.118
.65.3811134144050430
219.142.78.85 - - [10/Dec/2005:00:00:58 +0800] "GET /phpMan.php/man/Config::myconfig/ HTTP/1.0" 200 1998 "-" "iaskspider" 219.
142.78.85.302351134144058586

按此阅读全文 "新浪IaskSpider" »

车东发表于 2005年12月12日上午09时35分 | 全文 | 评论 (5)

Liveplasma.com的类聚引擎

今天看到一篇新闻：Firefox users ignore online ads, report says | CNET News.com，更让我惊奇的发现News.com新闻右侧广告下面出现的新相关功能：
通过主题云图的方式展现了相关的文章（黑色），相关的公司（红色）和相关的主题（绿色）

附图如下：

按此阅读全文 "Liveplasma.com的类聚引擎" »

车东发表于 2005年12月14日下午06时41分 | 全文 | 评论 (2)

Year of Wiki

phenom3
Originally uploaded by fuzheado.

http://www.google.com/press/zeitgeist2005/phenomena.html
Year of the Wiki
As the open source concept has moved from software development to photo-sharing to blogging, wikis – collaborative, editable web-based projects – have come into their own. And Wikipedia, the multi-language, meta-compendium of information has grown immensely this year. Despite a recent controversy about the accuracy of information that is melded by many writers and editors, the popularity of this open source approach is considerable.

按此阅读全文 "Year of Wiki" »

车东发表于 2005年12月21日上午11时39分 | 全文 | 评论 (3)

遭遇Referer Spam

从最近的流量统计中发现了非常奇怪的现象：某些PV很大的来源流量居然为0



IP地址         国家 PV          流量

69.28.242.87	US	11452		0.28  M字节

64.193.62.232	US	10521		0

66.246.218.107	US	6010		54.59 M字节

69.73.166.108	US	5630		0

61.183.207.98	CN	3047		27.06 M字节

221.11.5.181	CN	2392		66.88 M字节

66.246.120.114	US	2207		0

从原始日志上看：都是类似以下的0流量 HEAD请求



69.28.242.87 - - [29/Dec/2005:13:41:10 +0800] "HEAD / HTTP/1.1" 200 0 "http://bankruptcy.dynu.net/buy-cialis/buy-cheap-cialis.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 69.28.242.87.253451135834870862

69.28.242.87 - - [29/Dec/2005:13:45:24 +0800] "HEAD / HTTP/1.1" 200 0 "http://medportal.dynu.net/mortgage/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 69.28.242.87.262371135835124636

69.28.242.87 - - [29/Dec/2005:13:52:51 +0800] "HEAD / HTTP/1.1" 200 0 "http://fenikrul.white.prohosting.com/phentermine-online.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 69.28.242.87.279061135835571753

69.28.242.87 - - [29/Dec/2005:14:04:05 +0800] "HEAD / HTTP/1.1" 200 0 "http://fenikrul.white.prohosting.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 69.28.242.87.269751135836245577

69.28.242.87 - - [29/Dec/2005:14:13:17 +0800] "HEAD / HTTP/1.1" 200 0 "http://medportal.dynu.net/buy-viagra/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 69.28.242.87.302561135836797409

每次请求“客户端”只向服务器发送请求，但是目的是为了能将referer中的地址被统计到当前网站的统计系统中，如果统计系统是对外公开的话而且是有超链形式的链接的话（虽然几率非常低），搜索引擎的spider抓取到以后，就会被计坐指向spam网站的链接。一个机器人每天可以对千万级的网站进行referer发送。只要其中十万分之一的网站能够对其中的"中招"，大量的反向链接就制造出来了。而被连接的网站可以轻易的得到很高的PageRank;而spam所付出的代价仅仅是向这些网站发送一些空请求的少量带宽. 如何防止这样的HEAD请求呢，谁知道有什么模块可以滤掉这些流量？

按此阅读全文 "遭遇Referer Spam" »

车东发表于 2005年12月29日下午04时19分 | 全文 | 评论 (8)

Google产品地图

googlemore
Originally uploaded by 94smart.

出处: http://www.gsx.name

车东发表于 2005年12月30日晚上11时17分 | 全文 | 评论 (1)

AdSense的支票托收

去年在冯衍同学的桑林志上看到过：Google Adsense 支票托收问题
上个月收到一张 Google Adsense 支票，今天去了一趟银行。银行的工作人员告诉我，大概一个月后钱能到账户上，手续费约5000日元，等于支票上钱数的三分之一。……
5000日元相当于50$，收一张100$的支票，要花掉50$的手续费，蛮可笑的。Google一开始给中国大陆地区的支票是通过花期银行CITIBANK，以前咨询过：花期银行托收一张的手续费是70$，而路对面的中国银行托收仅需要30￥。办一张带美元帐户的存折就可以了。现在支票的签发行改为香港汇丰了吧，手续费和周期也是一样：要1,2个月左右。

如何估算自己网站的AdSense收入呢：
我看了一下自己网站AdSense的点击率：已经从初期的0.5%降到了目前的0.2%左右。大约3个月收到一次Google的支票，这样一年下来大约2000-3000人民币。和我自己的网站统计对比了一下：这个数值基本上等于我的网站上每天的访问人次。

按此阅读全文 "AdSense的支票托收" »

车东发表于 2006年02月12日下午06时31分 | 全文 | 评论 (16) | 引用通告 (1)

site:chedong.com crawled by

一年前做的一个小试验：车东[Blog^2]: 让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站今天这个试验又查了一遍：看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。

site:chedong.com crawled by这个命令在各个引擎上几乎都是通用的。虽然显示出来的User Agent信息是各个搜索引擎蜘蛛团队的举手之劳：但从一些细节上还是能看到很多差异。

Google
车东Che, Dong - My Window, Your Bridge
联系方式|Contact]. Google Talk · 雅虎招聘 [My Bloginality is INTJ]. Alexa流量统计：, 2006-02-25 11:39 @66.249.64.15 Crawled by Googlebot/2.1 (+http://www.google.com/bot.html) show this page source · Send me a book.
www.chedong.com/ - 39k - 2006年2月24日 - 网页快照 - 类似网页

uniq - phpMan - [ 翻译此页 BETA ]
On Apache/1.3.34 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.2 Under GNU General Public License · 2006-02-18 11:16 @66.249.65.5 Crawled by Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) · Valid XHTML 1.0! ...
www.chedong.com/phpMan.php/man/uniq - 5k - 网页快照 - 类似网页

Google的蜘蛛版本没有变化，但是从不同网段来的有些有Mozilla/5.0前缀，有些则没有，页面摘要很均匀，还原/可读性较好。

百度
车东 Che, Dong - My Window, Your Bridge
by Fernada Viégas, Martin Wattenberg & myself. for all those infosthetically minded ...Crawled by Baiduspider+(+http://www.baidu.com/search/spider.htm) show this page sourceSend me ...
www.chedong.com/ 41K 2006-2-25 - 百度快照
蜘蛛很规范，但是从上下文摘要中：似乎对原文多滤掉了一些标点，从搜索结果看：所有英文内容都被滤掉了。抓取/更新很快

雅虎
车东 Che, Dong - My Window, Your ...
车东 Che, Dong - My Window, Your Bridge. Sat 25 February, 2006. 据说 ... 93 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp China ...
www.chedong.com - 42K - 2006年02月25日 - 网页快照 - 更多此站结果

Slurp China是从中国进行的抓取，site:命令参数被当成关键词标引，而摘要中的“上文”被截断太多，有些影响可读性，摘要/除重仍然是明显的问题；

MSN
#车东 Che, Dong - My Window, Your Bridge
My Bloginality is INTJ ] Alexa流量统计： 2006-02-24 15:18 @65.54.188.102 Crawled by msnbot/1.0 (+http://search.msn.com/msnbot.htm) show this page source
* www.chedong.com * Cached page * 2/24/2006
去年的试验时： MSNBot的版本号是0.3，今年是1.0 综合表现进步很快；

按此阅读全文 "site:chedong.com crawled by" »

车东发表于 2006年02月26日傍晚07时38分 | 全文 | 评论 (3) | 引用通告 (1)

基于群体分析发现网站的相关性

今天看：

其中谈到了Amazon的a9.com中的搜索历史等功能对于用户的帮助。忽然想到Google的搜索结果页上有一个不怎么常用的相关网站功能：其实是一个很有用“发现”的功能，这种发现完全是不基于“字面”的，我感觉是经常看当前网网站的人，还经常看哪些内容的用户群体统计结果。

具体是怎么实现的呢？设想了一个实现的方案：在搜索结果中（也许是Toolbar/搜索历史等来源）将用户每次点击都记录下来，然后根据域名汇总：然后建一个用户=>访问过的网站的反相索引。通过统计就可以发现：点击chedong.com上内容的用户，还经常去看哪些网站。当然：如果超市中“牛奶”是几乎每个人都购买的，就不应该出现在“牙膏”的相关推荐中，而"牙刷"就是一个比较好的推荐。因此还需要根据这些网站的流行度和同现度综合加权，就找到了当前网页(网站)的相关网页。尿片和啤酒的经典统计案例应该也是类似的机制。

Amazon的买了这本书的人：同时还喜欢什么书。豆瓣的“猜你会”喜欢什么书。应该也是类似机制实现的。

请教：
在数据挖掘中：这种同现度的发现机制的专业说法（术语）应该是什么？"association rules" “SPSS的clementine”
目前有那些已经实现的方案和统计工具？weka spss

按此阅读全文 "基于群体分析发现网站的相关性" »

车东发表于 2006年03月19日下午03时54分 | 全文 | 评论 (12) | 引用通告 (1)

搜索引擎蜘蛛多长时间更新一次DNS

为了加快抓取速度，专业的搜索引擎大部分有DNS缓存：但是搜索引擎多长时间更新一次，3月4日的时候cnblog.org进行了一次IP切换。旧服务器上的日志和统计并没有停止：AWStats数据统计如下。

搜索引擎网站的机器人 (前 10)   -   全部列出   -   最近参观日期 	 
35 个机器人*	文件数	字节	最近参观日期
Sina Iask	2509	38.61 M字节	2006年 三月 09日 18:32
OutfoxBot	838	9.81 M字节	2006年 三月 15日 02:31
Yahoo Slurp	419+66	6.09 M字节	2006年 三月 19日 21:38
BaiDuSpider	137+36	2.17 M字节	2006年 三月 18日 06:31
Googlebot	147+2	1.74 M字节	2006年 三月 11日 19:03
Unknown robot (identified by 'crawl')	130+1	1.56 M字节	2006年 三月 18日 13:33
Turn It In	93	236.54 K字节	2006年 三月 04日 01:33
MSNBot	80+7	1.52 M字节	2006年 三月 04日 04:37
BecomeBot	77+2	920.27 K字节	2006年 三月 04日 13:37
Bloglines	71	43.51 K字节	2006年 三月 04日 04:08

按此阅读全文 "搜索引擎蜘蛛多长时间更新一次DNS" »

车东发表于 2006年03月20日下午01时55分 | 全文 | 评论 (6)

hl_ftien_spider原来是海量的蜘蛛

最近很多站点都发现了一个名叫hl_ftien_spider的蜘蛛，这个蜘蛛的抓取频度：可是相当的厉害，几乎和DoS攻击差不多，自然也引起了不少公愤：

今天网站流量再度攀升,经检查原来是一个名为"hl_ftien_spider"的蜘蛛在疯狂的爬我的网站网页.

grep hl_ftien_spider access_log.20060304 |awk '{print $1 $2 $4 $3 $12}'

218.68.240.81-[04/Mar/2006:22:57:11-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:27-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:45-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:46-"hl_ftien_spider"

................

这样胡乱爬网页跟攻击没有什么区别,马上封了该ip地址,iptables在封锁ip上还是非常有效的:

iptables -A INPUT -s 218.68.240.38 -j REJECT

查询了一下该Ip地址,是来自天津的:

您要查询的是"218.68.240.38"，它被理解为"218.68.240.38"

官方数据:
在亚洲与太平洋网络信息中心(APNIC)找到:

% [whois.apnic.net node-1]
% Whois data copyright terms http://www.apnic.net/db/dbcopyright.html

路由: 218.68.0.0/15
单位全名和地址: CNC Group CHINA169 Tianjin Province Network
国家或地区: 中国
自治域(AS): AS4837
维护者: MAINT-CNCGROUP-RR
变更记录: abuse@cnc-noc.net 20060118
信息来源: APNIC

谁知道这是哪家的蜘蛛出来乱爬么?

Google上也没有有用的信息,似乎是流氓引擎吧.

看看WebMasterWorld上的评论：

This bot hit my site today, picked up robots.txt, then picked up a few dozen pages - and tried to pick up about 1800 more pages after it hit a bot trap.

All of which it did within 4 minutes.

The IP is the same as you had, and it resolves to net263.com in China.
I've banned it.

我今天从服务器的突然后台负载增高也发现了这个蜘蛛，上月的一次大量抓取来自上海某高校，当时不得不将我的twiki改成了认证登录。



60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/nl/3ncurses HTTP/1.1" 200 10235 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/printw/3ncurses HTTP/1.1" 200 4939 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/curl_mvsnprintf/3 HTTP/1.1" 200 6830 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/HTML::Element/3pm HTTP/1.1" 200 61844 "http://www.chedong.com/phpMan.php/man/class/1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vw_printw/3ncurses HTTP/1.1" 200 4948 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vprintf/3 HTTP/1.1" 200 30165 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/yes/1 HTTP/1.1" 200 3301 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:44 +0800] "GET /phpMan.php/man/snprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/vfprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/scrollok/3ncurses HTTP/1.1" 200 10253 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

网站稍微差一点的都会承受不住压力的。我今天顺着来源的IP地址看了一下，http://60.28.249.27/ 这不是海量的DIGDIG搜索引擎的论坛吗？

按此阅读全文 "hl_ftien_spider原来是海量的蜘蛛" »

车东发表于 2006年03月31日下午05时30分 | 全文 | 评论 (8)

使用雅虎实现免费站内搜索

经过了一搜 yahoo.com.cn search.cn.yahoo.com这几个域名的变迁，雅虎搜索的很多接口都变化了。今天又有人问我如何使用雅虎进行站内搜索，我做了一个样例：

<form method="get" action="http://search.cn.yahoo.com/search" target="yahoo_window">
<p>
<input type="text" name="p" size="20" maxlength="55" value=""></input><br />
<input type="radio" name="vs" value=""></input><a>Web</a>
<input type="radio" name="vs" value="chedong.com" checked="checked"></input><a>chedong.com</a><br />
<input type="submit" name="sa"></input><br />
</p>
</form>

替换黑体字部分改成你的域名，然后将以上代码嵌入到网页中就可以了：

按此阅读全文 "使用雅虎实现免费站内搜索" »

车东发表于 2006年06月09日傍晚07时26分 | 全文 | 评论 (2)

[AWStats] 加入新搜索引擎定义：114.vnet.cn

最近发现了从114.vnet.cn的搜索流量：是中国电信互联星空旗下网站，后台搜索引擎是百度

[chedong@chedong logs]$ grep vnet.cn * |awk  '{print $4,$11}'|more
[27/Aug/2006:20:21:00 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=che+"
[28/Aug/2006:15:13:24 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=%C3%E2%B7%D1%C9%B1%B6
%BE%C8%ED%BC%FE&b2=%CB%D1%CB%F7"
[28/Aug/2006:22:30:21 "http://114.vnet.cn/search_web.html?kw=%B5%D8%CD%BC&submit2=%CB%D1+%CB%F7&start=50"
[28/Aug/2006:22:49:01 "http://114.vnet.cn/search_web.html?id=1&kw=%C3%E2%B7%D1%C9%B1%B6%BE%C8%ED%BC%FE"
[28/Aug/2006:23:26:10 "http://114.vnet.cn/search_web.html?id=&kw=%B3%B5"
[29/Aug/2006:02:04:44 "http://114.vnet.cn/search_web.html?kw=che&submit2=%CB%D1+%CB%F7"
[29/Aug/2006:15:05:14 "http://114.vnet.cn/search_web.html?kw=che"
[30/Aug/2006:22:53:56 "http://114.vnet.cn/search_web.html?id=1&kw=che"
[31/Aug/2006:14:44:59 "http://114.vnet.cn/search_web.html?kw=%C3%E2%B7%D1%C9%B1%B6%BE%C8%ED%BC%FE&submit2=%CB%D1+%CB%F7"
[31/Aug/2006:15:31:54 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=%B3%B5"
[31/Aug/2006:19:14:20 "http://114.vnet.cn/search_web.html?kw=che&submit2=%CB%D1+%CB%F7"
[31/Aug/2006:20:31:03 "http://114.vnet.cn/search_web.html?kw=\xd7\xee\xd0\xc2\xb5\xc4\xc3\xe2\xb7\xd1\xc9\xb1\xb6\xbe\xc8\xed
\xbc\xfe&id="
[01/Sep/2006:11:04:20 "http://114.vnet.cn/search_web.html?kw=%C3%E2%B7%D1%C9%B1%B6%BE%C8%ED%BC%FE&submit2=%CB%D1+%CB%F7"
[01/Sep/2006:13:06:22 "http://114.vnet.cn/search_web.html?kw=motorola+mobile+PhoneTools+&submit2=%CB%D1+%CB%F7"
[24/Aug/2006:21:10:46 "http://114.vnet.cn/search_web.html?kw=\xd6\xa5\xbb\xaa\xca\xbf\xb9\xe3\xb8\xe6\xc7\xfa\xcf\xc2\xd4\xd8
&id=1&start=10"
[26/Aug/2006:23:34:14 "http://114.vnet.cn/search_web.html?id=1&kw=www.8812345%2Fcom%2F"
[26/Aug/2006:23:36:12 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=www.8812345%2Fcom%2F&
b2=%CB%D1%CB%F7"
[27/Aug/2006:23:32:44 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=www.8812345%2Fcom%2F&
start=0"
[28/Aug/2006:21:32:06 "http://114.vnet.cn/search_web.html?id=1&kw=www.8812345"
[29/Aug/2006:12:57:22 "http://114.vnet.cn/search_web.html?kw=%D6%A5%BB%AA%CA%BF&submit2=%CB%D1+%CB%F7"
[29/Aug/2006:13:52:58 "http://114.vnet.cn/search_web.html?kw=%D6%A5%BB%AA%CA%BF&submit2=%CB%D1+%CB%F7"
[30/Aug/2006:23:43:57 "http://114.vnet.cn/search_web.html?kw=%D6%A5%BB%AA%CA%BF"
[01/Sep/2006:03:43:40 "http://114.vnet.cn/search_web.html?kw=%B4%F3%B5%C0%D3%B0%D4%BA&submit=%CB%D1+%CB%F7"
[01/Sep/2006:11:26:56 "http://114.vnet.cn/search_web.html?kw=%D4%B2%C3%F7%D4%B0&start=30"
[01/Sep/2006:11:35:39 "http://114.vnet.cn/search_web.html?kw=%D4%B2%C3%F7%D4%B0&start=30"
[01/Sep/2006:12:11:18 "http://114.vnet.cn/search_web.html?kw=%D6%A5%BB%AA%CA%BF"
[01/Sep/2006:13:44:57 "http://114.vnet.cn/search_web.html?ct=201326592&cl=2&lm=-1&tn=baiduimage&id=1&kw=www.8812345"
[01/Sep/2006:17:00:24 "http://114.vnet.cn/search_web.html?kw=\xb0\xd9\xb6\xc9mp3\xb8\xe8\xc7\xfa&id=&start=10"
[01/Sep/2006:20:24:04 "http://114.vnet.cn/search_web.html?kw=%BA%AB%BE%E7&start=30"

9月20日更新：114.vnet.cn已经改用Msn Live Search

chedong.com来自搜索引擎的流量	 
28 个不同的搜索引擎转介参观者到这站	网页数	百分比	文件数	百分比
Baidu	46350	54.5 %	53358	57 %
Google	33601	39.5 %	33673	36 %
SoSo	1502	1.7 %	1503	1.6 %
Yahoo!	910	1 %	980	1 %
MSN Search	831	0.9 %	845	0.9 %
VNet	451	0.5 %	451	0.4 %
SoGou	428	0.5 %	438	0.4 %

按此阅读全文 "[AWStats] 加入新搜索引擎定义：114.vnet.cn" »

车东发表于 2006年09月01日晚上09时22分 | 全文 | 评论 (4) | 引用通告 (1)

Google的AdSense服务在中国的部分合作网站分布及流量

Google面向广告客户的AdWords中有一个功能是指定网站进行广告投放：其中列出了各个地区主要的AdSense合作网站列表（部分）供选择进行网站定向投放，并分成以下大类列出。



  	本地搜索

	地区目录

	电信

	移动与无线

	房地产

	租赁列表与推介

	购物

	互联网

	计算机及电子产品

	硬件

	家居与园艺

	健康

	金融与保险

	投资

	旅游

	企业

	社会

	教育

	生活方式

	新闻与时事

	行业

	交通运输与物流

	艺术和人文科学

	书籍与文献

	游戏

将这些网站一一记录排除了重复的记录后得到了1176家网站的统计（附后）。其中流量在50万以上的网站列表如下：

最低流量(k)       域名

500	xiaoyouxi.com

500	war3.uuu9.com

500	uuu9.com

500	stockstar.com

500	stock.cnfol.com

500	qqhot.com

500	qf18.com

500	product.pcpop.com

500	phoenixtv.com

500	oa18.com

500	nnsky.com

500	news.phoenixtv.com

500	newhua.com

500	mofile.com

500	hsyl.hnol.net

500	hnol.net

500	face.coralqq.com

500	duowan.com

500	coralqq.com

500	cnfol.com

500	club.ccmove.com

500	ccmove.com

500	bitcomet.com

500	bbs.uuu9.com

500	55bbs.com

500	55188.com

500	456.net

500	3839.com

按此阅读全文 "Google的AdSense服务在中国的部分合作网站分布及流量" »

车东发表于 2006年09月02日晚上09时37分 | 全文 | 评论 (11)

顶级域名注册分布统计：2006年09月 .com .de .net .uk .cn

Ext	Domains	    Registered	Country
com	53,896,533 	Global	gTLD
de	10,022,858 	Germany
net	7,870,306 	Global	gTLD
uk	5,141,040 	United	Kingdom
org	4,853,499 	Global	gTLD
eu	2,125,207 	European	Union
nl	2,003,258 	Netherlands
it	1,179,188 	Italy
cn	1,173,330 	China
be	1,057,108 	Belgium
us	1,004,626 	United	States
br	956,542 	Brazil
jp	845,603 	Japan
ch	814,683 	Swiss
dk	708,693 	Denmark
fr	632,404 	France
at	544,821 	Austria
pl	482,199 	Poland
se	466,012 	Sweden
es	411,174 	Spain
cz	254,777 	Czech
pt	98,751 	    Portugal

按此阅读全文 "顶级域名注册分布统计：2006年09月 .com .de .net .uk .cn" »

车东发表于 2006年09月21日傍晚08时09分 | 全文 | 评论 (7)

盗亦有道：OutfoxBot原来是有道蜘蛛

一个新的独立的搜索引擎：有道 yodao.com发布了，有道搜索引擎用的什么机器人呢？用crawledby方法查了一下：很眼熟的名字，原来有道蜘蛛就是以前被认为是匿名盗抓的OutfoxBot啊……

新搜索引擎发布，还是要祝贺一下。这里还给有道蜘蛛的一些建议：
1 ~~做个机器人抓取说明页吧（最好有联系方式），并加入到蜘蛛UA中~~有道蜘蛛的帮助：写的很详细了 http://www.yodao.com/help/webmaster/spider/就是还没有被其他引擎收录；
2 查查以前UA中留的gmail邮箱：给向你们提意见的用户一个回复；

在有道的搜索结果附后：

按此阅读全文 "盗亦有道：OutfoxBot原来是有道蜘蛛" »

车东发表于 2006年12月17日夜间12时49分 | 全文 | 评论 (6) | 引用通告 (1)

括号的妙用：网页中的中英文对照翻译发现

yodao.com的海量词典很有意思的一个功能就是：中英文对照，很多文章介绍一个人或者中文翻译的时候都会用括号带上英文的原文：中文名(EnglishName)，比如：
人名：娜塔莉高(Natalie Cole)
电影名：笑傲江湖(Swordsman) 《终结者》(Terminator)
《指环王》(The Lord of the Rings) 《哈利波特》(Harry Poter) 《木乃伊》(The Mummy)

估计Yodao是基于对网页中海量文章中这种模式做了统计：得到了很多中文译名与英文原文翻译对照。对于新名次和人名：这种统计发现尤其有效。

按此阅读全文 "括号的妙用：网页中的中英文对照翻译发现" »

车东发表于 2006年12月20日傍晚08时19分 | 全文 | 评论 (5)

流量统计：QihooBot来过 CollapsarDEEP

上个月底29日的统计发现当天流量超过了2G（平时都是低于1G的）：根据来源IP发现了蜘蛛，信息： Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)

本月截至昨天的流量统计： QihooBot的流量排在第一，加号后面是蜘蛛robots.txt的请求次数
QihooBot 10035 3.58 G字节 2007年一月 03日 23:58
Yahoo! Slurp China 4586+33 8.41 M字节 2007年一月 03日 23:59
Googlebot 4165+21 19.36 M字节 2007年一月 03日 23:59
Sina Iask Spider 3544+1 16.18 M字节 2007年一月 03日 15:46
MSNBot 3028+163 39.05 M字节 2007年一月 03日 23:58
Nutch 2531+3 89.02 M字节 2007年一月 03日 23:43
Yahoo Slurp 1879+341 9.50 M字节 2007年一月 03日 23:59
发现Yahoo Slurp对于网站的请求越来越友好了，大量的请求都是304检查文件是否更新过；

按此阅读全文 "流量统计：QihooBot来过 CollapsarDEEP" »

车东发表于 2007年01月04日傍晚08时07分 | 全文 | 评论 (5) | 引用通告 (1)

AdWords编辑器：用户最喜欢的10大功能

AdWords编辑器是Google开发的一个客户端程序：专门用于AdWords大客户的大批关键词管理。

用户最喜欢的十大功能包括：
10. Find duplicate keywords in your account with just two clicks of your mouse.
鼠标2次点击即可找到所有的重复关键词。
9. Copy or cut and paste between ad groups, campaigns, or even across accounts.
分组之间的关键词黏贴/复制。甚至是跨帐号的复制/黏贴。
8. Make bulk changes to destination URLs using the Add/Update Multiple tools or Advanced URL Changes.
批量修改目标地址：高级替换功能；
7. If you need to edit your keywords or ads in a spreadsheet, copy the items to edit from the data view and paste them into a spreadsheet. Make your changes, then paste the contents of the spreadsheet directly into the appropriate Add/Update Multiple tool.
EXCEL表格管理关键词，并批量上传；
6. Undelete and activate previously deleted text ads.
恢复误删关键词/广告；
5. Search your account quickly. Perform simple word searches, or do an Advanced Search to find items that meet the multiple criteria that you specify.
帐号内的关键词检索：分字段检索；
4. Easily find and edit bids, destination URLs, and text for ads, keywords, or sites.
搜索后的快速编辑；
3. Submit multiple exception requests at once.
批量提交豁免申请（ SouthGrass: 当用户编辑好的广告格式、文字不符合Google Adwords 的编辑指南时，可以向Google 提出申请要求特殊照顾，即豁免申请）；
2. Automatically organize your keywords into ad groups based on common themes.
根据主题自动将关键词分组；
1. Save a snapshot of your account for archiving or for sharing. Later, you can import the archive file to restore your prior account settings.
帐号/数据的归档和共享，导入导出；

按此阅读全文 "AdWords编辑器：用户最喜欢的10大功能" »

车东发表于 2007年03月27日上午11时28分 | 全文 | 评论 (2) | 引用通告 (1)

“如何”和“怎样”方便的找到用户的需求

目前很多搜索引擎的竞价客户还不太善于选择关键词发现和挖掘潜在客户，如何引导客户从用户角度考虑问题呢？用户遇到问题/需求的时候一般都用什么关键词寻找解决方法呢？百度的相关搜索接口是一个很方便的来源，直接搜索 “如何” 、“怎样”还能知道现在网民最多的需求：

1 如何炒股
2 如何购买基金
3 如何减肥
4 如何买基金
5 如何看k线图
6 如何打开注册表
7 如何重装系统
8 如何买股票
9 如何制作网页
10 如何进入安全模式

类似的：从日志统计中发现，spoolsv.exe是最大的用户来源。那么除了spoolsv.exe外，用户还经常搜那些相关的问题呢？查一下“.exe”就可以关联出其他经常被查询的关键词。

1 svchost.exe
2 cmd.exe
3 iexplore.exe
4 alg.exe
5 wuauclt.exe
6 ctfmon.exe
7 explorer.exe
8 taskmgr.exe
9 avp.exe
10 rundll32.exe
11 spoolsv.exe

原来spoolsv.exe只是一个此类关键词中流量排名第11位的，通过搜索量状态条可以推算出其他关键词的搜索量。

按此阅读全文 "“如何”和“怎样”方便的找到用户的需求" »

车东发表于 2007年05月11日傍晚08时11分 | 全文 | 评论 (3)

雅虎One Search的新形象：征名中

新造型的原型据说是雅虎One Search和YiSou新Web UI的设计者之一杨家宁：一个喜欢Linux，喜欢WebUI的Web工程师。

雅虎很多产品都有系列人物造型，最著名就是免费邮箱的Liam系列：他的名字就是mail倒过来写，听说One Search的造型还没起名：有什么建议请留言。

更新：2007-06-15 YSeeker搜集的更全，我转帖了一些，据说已经有十几个了，以后配合不同活动发布。

按此阅读全文 "雅虎One Search的新形象：征名中" »

车东发表于 2007年06月12日下午01时15分 | 全文 | 评论 (7)

这次是Musicmatch：下一个会是？

今天收到了MusicMatch的信：大概意思就是旧的MusicMatch将于2007年8月31日结束，用户可以将服务迁移到新的Yahoo! Music Jukebox……很久没有用MusicMatch的服务了，以前注册也是用也是为了将自己的CD转成MP3。而Winamp 5已经可以可以很好的支持CD音轨转MP3了。

还记得雅虎的花生酱宣言吗，里面列出的左右互博问题有些已经有了一些眉目，还没有结论的我用黑体字标记了一下个人喜好（你的选择呢？）。
• YME(Yahoo! Music Engine) vs. ~~Musicmatch~~
• Flickr vs. ~~Photos~~
• YMG video vs. Search video
• Del.icio.us vs. myweb
• Messenger and plug-ins vs. Sidebar and widgets
• Social media vs. 360 and Groups
• Front page vs. YMG(Yahoo! Media Group)
• Global strategy from BU' vs. Global strategy from Int'l

给MusicMatch的用户信附后。

按此阅读全文 "这次是Musicmatch：下一个会是？" »

车东发表于 2007年07月10日下午05时11分 | 全文 | 评论 (4)

搜索引擎战略大会( 2007 厦门 )后记

5月底参加的另外一个大会是搜索引擎战略大会。搜索引擎对于目前网站流量来源的重要性可以从以下数字看出：
搜索引擎不直接给用户解决问题，只是提供一个到达目标的转向：一般来说：带给其他网站的流量相比搜索引擎的搜索流量是要大于1的（用户搜索一次，一定会点击超过一下）。所以搜索引擎有多少流量，带给目标网站的流量可以乘个1.5。中国每天有多少搜索流量？ 3-4亿，带给其他网站的流量是多少？ 5-6亿。中国每天有几千万用户产生的几十亿流量，而搜索引擎就掌握了其中的5%左右的入口流量，对于很少给其他网站带去流量的内容网站来说，这几乎是所有来自非本站流量（referer）的90%以上。

以下是厦门大会上的部分问题摘要：
为什么你的网站被冥王星了？

参加大会之前曾经要求过主办方将单元标题将"为什么你的网站被删了"改成"为什么你的网站被冥王星了", 而从实际的反馈来看, 网站更关心的问题是为什么其他网站作弊而没有被“冥王星”?
直接向搜索引擎服务商举报是目前的一个途径, 以下是几个引擎的spam提交地址：
百度: http://utility.baidu.com/antispam/spamreport.html
Google: http://www.google.com/contact/spamreport.html
中国雅虎搜索: http://help.cn.yahoo.com/feedback.html?product=onesearch

如何保护自己的文章(搜索引擎如何保证原创性内容排名靠前):

再推销一下chedong copyright . 这个方法很有效, 为用户正确的标记文章原始出处提供方便, 通过法律途径对于不遵循你声明的版权信息的网站进行反击或者积极推进相关法律的形成和执行，我相信用户还是希望做正确的事情的，如果你为他们提供方便的话

按此阅读全文 "搜索引擎战略大会( 2007 厦门 )后记" »

车东发表于 2007年07月12日下午12时04分 | 全文 | 评论 (3)

阿里妈妈广告投放的一些注意事项

8月10日阿里妈妈广告平台发布后我就是申请了代码，投放了一段时间后，还是有些经验教训，这里备忘一下。

第一：及时查看广告购买情况，避免缺省轮循Alimama缺省广告，如果选择了广告需要经过你审核后投放，你最好必须隔三岔五的登录上去看看，我周五投放的，周一登录后台才看到，其实已经有几个客户下单了，有客户因为没有及时回复而撤单了；
第二：避免轮循无收入广告：如果选择了广告投放，总不可避免有些时间会投放Alimama的缺省图片广告，这个广告是没有收入的，但是如果选择了允许CPC模式：还有会有些收入的。

从申请广告位到首个用户开始投放总有个几天的，对于流量较大的网站：这几天的收入也是需要关注的。
第三：广告位价格的估算：
原先我按照Google AdSense收入的估算：日独立IP数=年收入￥基本上还是比较靠谱的。
目前下面那个广告位的点击率在0.15%上下，日3000IP左右，点击10几个，所以我提出的广告出价为50￥/周（3000￥ / 52周），平均下来广告客户一周会有几十点击和上万展现，广告客户选择广告投放网站。按照这个价格的广告已经在执行中：
买家成交价格投放时间交易状态
Andy 50.00 2007-09-04—2007-09-10 已执行
1stcool 100.00 2007-08-21—2007-09-03 已执行

按此阅读全文 "阿里妈妈广告投放的一些注意事项" »

车东发表于 2007年08月24日晚上10时28分 | 全文 | 评论 (8)

Google的搜索来源分布跟踪解读：GGGL与GGLD，sourceid和client,rlz,rls等

Google出品的参数是sourceid
例如：
FIREFOX工具条： navclient-ff
桌面搜索： gd
IE工具条： navclient

非GOOGLE产品合作伙伴使用client参数：
例如：
FireFox内置：firefox-a
傲游浏览器： aff-os-maxthon

更详细的信息是rls参数：包括首次安装时间和语言版本；
rls=GGGL,GGGL:2006-27,GGGL:zh-CN
2006-27：应该是Google工具条的首次安装时间（于一年中的第几周），和我升级到FireFox 2.x时间接近，第二个参数是工具条的语言，以此类推： GGLD应该代表桌面搜索
例如： rls=GGLD,GGLD:2006-35,GGLD:zh-CN

而最新URL中参数已经增加了： rlz跟踪参数；
例如： rlz=1T4GGLD_zh-CN___CN228
应该是更详细的版本号，安装时间等信息；

后面是我的网站上搜集到的各种来源分布和猜测含义：

按此阅读全文 "Google的搜索来源分布跟踪解读：GGGL与GGLD，sourceid和client,rlz,rls等" »

车东发表于 2007年10月15日下午05时18分 | 全文 | 评论 (2)

百度蜘蛛支持crawl-delay/sitemaps/blog ping接口，Alexa增加Keywords/来源分析/用户构成

Baidu的API和google的完全相同，只是RPC的URL不同。Baidu的RPC服务URL 是

http://ping.baidu.com/ping/RPC2

具体提交参数可以参考：Google BlogSearch 服务的Ping接口文档。此外： Baidu蜘蛛也支持crawl-delay和Sitemaps协议。加上百度自有的阿拉丁格式接口，感觉内容网站和搜索引擎之间的交互接口越来越丰富了，结构化的数据提取和展现应该是通用搜索引擎的一个进化方向；

网站分析服务商Alexa最近也有不少面向站长很贴心的功能改进，虽然作为alexa反应总体流量趋势的能力越来越弱，但其中一些流量构成报告还是很有参考价值的：
1 搜索来源占总体流量比例；
2 搜索来源关键词；
3 流量来源分布：包括搜索和内容链接；
4 用户构成，包括性别，年龄，教育，上网地点（工作/家里/学校），是否有小孩；

样例截图附后：网站流量越大相对统计趋势会越准一些；

按此阅读全文 "百度蜘蛛支持crawl-delay/sitemaps/blog ping接口，Alexa增加Keywords/来源分析/用户构成" »

车东发表于 2009年07月26日下午01时59分 | 全文 | 评论 (3)

搜索引擎来路关键词的挖掘：百度统计的高级分析报告导出获取来源关键词

简单的说就是买百度统计的高级分析，然后用关键词维度组合其他访问属性导出报告。

n年没有接触SEO了，最近发现现在的搜索引擎优化已经和以前完全不一样了。自从各大搜索引擎（Google2011年，百度2015年）https化以后，网站获得自己的搜索来源关键词都变得非常的麻烦，最近几年百度/Google等搜索引擎已经全面取消referer中的关键词传递，除了搜索自身的网站，实时拿到用户搜索来源关键词基本不可能了。

通过https+取消referer中的关键词传递，可以有效避免电信运营商劫持流量获取用户搜索行为，但本来应该得到用户搜索意图信息的目标网站也失去了这个便利。如果搜索来源关键词量很大，网站使用百度统计的网站可以通过百度统计的“预定全部关键词”功能来全部导出（百度统计各种前端报表导出一般只能导出1000）数据可以隔天拿到：全部关键词和对应的搜索次数的关键词下载包，需要每天手工下载，百度统计的api目前不支持压缩包的下载。

百度6月份推出了一个高级分析功能，是的：收费，根据网站流量价格1万-5万/年，完整拿到每天百万级的来源关键词/URL/PV/UV/转换等维度的组合报告，这个价格还是非常值的。

百度云还有两外一个收费服务：1￥/千次实时解析referer中的百度关键词：搜索Referer API。

按此阅读全文 "搜索引擎来路关键词的挖掘：百度统计的高级分析报告导出获取来源关键词" »

车东发表于 2017年09月02日傍晚08时41分 | 全文 | 评论 (0)

车东[Blog^2]

良好引用，良好结构，良好导航 Well referenced and well organized, with easy navigation

搜索引擎动态|Search Engine 归档

2004年02月10日

最新研究：用户搜索变得越来越复杂（就是搜索时候使用的关键词越来越多啦）

最新研究：用户搜索变得越来越复杂（就是搜索时候使用的关键词越来越多啦）

2004年02月13日

Google基于HillTop算法的更新

2004年03月12日

搜索引擎作弊（WEB SPAM）的分类

2004年03月30日

Google的个性化搜索

2004年05月04日

Google悄悄跟踪用户点击：有可能根据搜索结果点击率改善排名

2004年05月17日

Google搜索博客??

2004年05月29日

Google官方网站增加对SEO(Search Engine Optimization)的说明

2004 Infonortics 搜索引擎 年会 文档 归档

2004年06月19日

MoreGoogle提供的网页缩略图服务

2004年06月26日

Baidu Tips: 百度小提示

2004年09月28日

站外搜索命令：看看其他网站如何引用自己网站上的内容

2004年10月16日

Google Desktop: 个性化的内容搜索开端

2004年12月11日

Google Suggest ;-) 基于js的动态下拉菜单

2005年01月09日

膨胀中的spaces.msn.com服务

2005年01月11日

搜索门户正在逐步损害网络的原创动力

2005年01月17日

让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站

2005年01月21日

+1 rel="nofollow" = 互联网为超链戴上的安全套?! ;-)

2005年02月02日

Google的“破窗”

2005年02月17日

Google的中文相关搜索提示

2005年03月13日

Google的个性化新闻：可再发布的搜索订阅

2005年03月29日

利用Google Groups配置留言簿：注意防止SPAM

2005年03月30日

Google收购Urchin

2005年04月14日

MSN推出带有自动类聚功能的搜索引擎

2005年04月21日

登录了Google，反而不知道该搜什么好了……

2005年04月23日

Google在暗示一下代搜索技术？

2005年06月27日

"i googlebot"：FlickR是一个很好用的图片搜索引擎

2005年06月29日

Beijing@Google.earth

2005年07月23日

在blog中加入Y!Q相关搜索

2005年07月25日

Google新界面吗？

2005年09月09日

基于桌面搜索的站内全文检索解决方案

2005年09月15日

通过Google webmasters tools提交SiteMaps：和Googlebot直接对话

2005年09月18日

BLOG="Better Listings On Google" ? Google BlogSearch上的 BSP索引收录量比较

Google为李开复博士新建的博客网志：kaifuleegoogle.com

2005年10月24日

你的blog用户都是通过那些搜索引擎找到你的？

2005年10月25日

Sohu Agent

2005年10月31日

分布式搜索引擎search.minty dowser类聚引擎和larbin蜘蛛

2005年11月09日

无处不在的分类技术：Google Groups增加相关论坛功能

2005年11月15日

Urchin => Analytics Google的免费网站统计系统发布

2005年11月18日

EurekSter + SWiki = swicki.eurekster.com

2004 Infonortics 搜索引擎年会文档归档

括号的妙用：网页中的中英文对照翻译发现

这次是Musicmatch：下一个会是？

关于搜索引擎动态|Search Engine