让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站


2005-01-17在我的网站上做了一个试验:在部分动态网页中嵌入了以下PHP代码:
echo date("Y-m-d H:i") . " Crawled by " . $_SERVER["HTTP_USER_AGENT"] . " @". $_SERVER["REMOTE_ADDR"
];

这样,抓取网页的Spider Agent信息和来源地址信息就做为网页内容被搜索引擎索引了。通过搜索结果可以告诉我Spider什么时候,从哪里(IP地址),用什么抓取访问了我的网站。

然后再通过站内搜索命令: site:chedong.com +特征词 就能直接定位到这个spider信息段落,在我的网页上是crawled。今天早上我在Google上查: site:chedong.com crawled 已经能看到效果:
车东 Che, Dong
... Alexa流量统计: Hosted by Powweb.com 2005-01-15 22:00 Crawled by
Googlebot/2.1 (+http://www.google.com/bot.html) @66.249.71.47.
chedong.com/

说明: Googlebot/2.1于2005-01-15 22:00从66.249.71.47这台服务器进行了抓取。

2005-01-20 YST结果出现
MIME::Base64 - phpMan [英译汉]
MIME::Base64 - phpMan Command: man perldoc info search(apropos) ... 2005-01-17 23:02 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com ...
www.chedong.com/phpMan.php/man/MIME::Base64 - 2k - 2005年1月18日

2005-01-20 百度结果出现
车东 Che, Dong
...的某些条款可以放弃 [联系方式|Contact] Yahoo! Messenger: [My Bloginality
is INTJ] Alexa流量统计: 2005-01-18 23:01 Crawled by Baiduspider+(+
http://www.baidu.com/search/spider.htm) @202.108...

2005-01-31 MSN Search发布
SSL_CTX_flush_sessions(3) - phpMan
... 2635 mod_ssl/2.8.22 OpenSSL/0.9.7d PowWeb/1.1 Under GNU General Public License 2005-01-17 19:27 Crawled by msnbot/0.3 (+http://search.msn.com/msnbot.htm) @207.46.98.34

根据我的网站的AWStats统计:非浏览器流量几乎和用户浏览流量一样多。
浏览器流量 * 44317 3.70 G字节
非浏览器流量 *42467 5.62 G字节
我看了一下:除了MP3播放器和RSS聚合器外,很大一部分是搜索引擎的Spider。

通过这个方法也可以看到自己网站在不同搜索引擎中的更新频度。一直都怀疑很多搜索引擎都没有遵守robots.txt抓取协议,模拟自己是客户端IE浏览器,这是非常不道德的行为。

搜索:site:chedong.com "crawled" 让我们看看那些搜索引擎没有遵守这个规则。 ;-) 在中国搜索上查 _SERVER["HTTP_USER_AGENT"] phpinfo 得到的结果是:
phpinfo()
OnOn ignore_user_ID"] s3jNMX8AAAEAABseI-gAAAAB _SERVER["HTTP] no-cache _SERVER["HTTP_USER_AGENT"]User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) _SERVER["HTTP...

说明中搜使用的SPIDER:是将自己身份设置为Windows 2000的IE 5.5版本浏览器?

2005-01-18
15日有一段时间是将这些标记放到phpMan.php标题里的:从中我们可以看到Googlebot的IP分布:和控制的较好的抓取频度。

Google的抓取分布的很均匀。

作者:车东 发表于:2005-01-17 11:01 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站:

» Sohu Agent 来自 车东[Blog^2]
最近从日志里发现了Sohu的Spider的踪迹: 220.181.26.112 - - [24/Oct/2005:12:15:11 +0800] "GET /tech/unicode_java.html HTTP/1.1" 200 12857 "-" "sohu agent" 220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /tech/resin.html HTTP/1.1" 200 822... [阅读更多细节]

» site:chedong.com crawled by 2006-02-26 来自 车东[Blog^2]
一年前做的一个小试验:车东[Blog^2]: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 今天这个试验又查了一遍:看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几... [阅读更多细节]

Comments

原来chedong也跟我一样用的awstats哈,我想请教一下,怎么在awstats里把utf-8编码的搜索关键词转为gb3212编码?
awstats的是gb2312的编码。

参考一下:
http://www.chedong.com/tech/awstats.html
LoadPlugin="decodeutfkeys"

awstats~how can tell me it is ....

国内有哪些网络蜘蛛产品?
你觉得哪些不错?

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36