让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站 (车东[Blog^2])

让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站

2005-01-17在我的网站上做了一个试验：在部分动态网页中嵌入了以下PHP代码：
echo date("Y-m-d H:i") . " Crawled by " . $_SERVER["HTTP_USER_AGENT"] . " @". $_SERVER["REMOTE_ADDR"
];

这样，抓取网页的Spider Agent信息和来源地址信息就做为网页内容被搜索引擎索引了。通过搜索结果可以告诉我Spider什么时候，从哪里（IP地址），用什么抓取访问了我的网站。

然后再通过站内搜索命令： site:chedong.com +特征词就能直接定位到这个spider信息段落，在我的网页上是crawled。今天早上我在Google上查： site:chedong.com crawled 已经能看到效果：
车东 Che, Dong
... Alexa流量统计： Hosted by Powweb.com 2005-01-15 22:00 Crawled by
Googlebot/2.1 (+http://www.google.com/bot.html) @66.249.71.47.
chedong.com/

说明： Googlebot/2.1于2005-01-15 22:00从66.249.71.47这台服务器进行了抓取。

2005-01-20 YST结果出现
MIME::Base64 - phpMan [英译汉]
MIME::Base64 - phpMan Command: man perldoc info search(apropos) ... 2005-01-17 23:02 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com ...
www.chedong.com/phpMan.php/man/MIME::Base64 - 2k - 2005年1月18日

2005-01-20 百度结果出现
车东 Che, Dong
...的某些条款可以放弃 [联系方式|Contact] Yahoo! Messenger: [My Bloginality
is INTJ] Alexa流量统计: 2005-01-18 23:01 Crawled by Baiduspider+(+
http://www.baidu.com/search/spider.htm) @202.108...

2005-01-31 MSN Search发布
SSL_CTX_flush_sessions(3) - phpMan
... 2635 mod_ssl/2.8.22 OpenSSL/0.9.7d PowWeb/1.1 Under GNU General Public License 2005-01-17 19:27 Crawled by msnbot/0.3 (+http://search.msn.com/msnbot.htm) @207.46.98.34

根据我的网站的AWStats统计：非浏览器流量几乎和用户浏览流量一样多。
浏览器流量 * 44317 3.70 G字节
非浏览器流量 *42467 5.62 G字节
我看了一下：除了MP3播放器和RSS聚合器外，很大一部分是搜索引擎的Spider。

通过这个方法也可以看到自己网站在不同搜索引擎中的更新频度。一直都怀疑很多搜索引擎都没有遵守robots.txt抓取协议，模拟自己是客户端IE浏览器，这是非常不道德的行为。

搜索：site:chedong.com "crawled" 让我们看看那些搜索引擎没有遵守这个规则。 ;-) 在中国搜索上查 _SERVER["HTTP_USER_AGENT"] phpinfo 得到的结果是：
phpinfo()
OnOn ignore_user_ID"] s3jNMX8AAAEAABseI-gAAAAB _SERVER["HTTP] no-cache _SERVER["HTTP_USER_AGENT"]User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) _SERVER["HTTP...
说明中搜使用的SPIDER：是将自己身份设置为Windows 2000的IE 5.5版本浏览器？

2005-01-18
15日有一段时间是将这些标记放到phpMan.php标题里的：从中我们可以看到Googlebot的IP分布：和控制的较好的抓取频度。

Google的抓取分布的很均匀。

作者：车东发表于：2005-01-17 11:01 最后更新于：2007-04-15 19:04
版权声明：可以转载，转载时请务必以超链接形式标明文章让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/000655.html

« 当wiki遇上chongqing, 受到恐吓的CooCooWakka | (回到Blog入口)|(回到首页) | 可读性和更新性: RSS模板的atom化改造 » [再编辑]

引用通告

以下是前来引用的链接: 让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站:

» Sohu Agent 来自车东[Blog^2]
最近从日志里发现了Sohu的Spider的踪迹: 220.181.26.112 - - [24/Oct/2005:12:15:11 +0800] "GET /tech/unicode_java.html HTTP/1.1" 200 12857 "-" "sohu agent" 220.181.26.111 - - [24/Oct/2005:13:00:52 +0800] "GET /tech/resin.html HTTP/1.1" 200 822... [阅读更多细节]

» site:chedong.com crawled by 2006-02-26 来自车东[Blog^2]
一年前做的一个小试验：车东[Blog^2]: 让搜索引擎Spider告诉你：什么时间，从哪里，用什么身份抓取了你的网站今天这个试验又查了一遍：看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几�... [阅读更多细节]