给AWStats增加针对Googlebot/Baiduspider/Yahoo!Slurp/MSNBot的详细统计


虽然AWStats中提供了蜘蛛的分类统计:

搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
102 个机器人* 文件数 字节 最近参观日期
Sina Iask Spider 41894 520.80 M字节 2006年 九月 09日 07:17
GouGou 34577 920.11 M字节 2006年 九月 09日 12:23
Googlebot 12171+39 212.60 M字节 2006年 九月 09日 12:23
Yahoo Slurp 5775+1275 91.10 M字节 2006年 九月 09日 12:24
GigaBot 5334+233 53.62 M字节 2006年 九月 09日 12:24
Unknown robot (identified by 'robot') 5421+6 71.46 M字节 2006年 九月 09日 12:17
Lilina 5278 76.67 M字节 2006年 九月 09日 12:22
MSNBot 4075+217 52.31 M字节 2006年 九月 09日 12:19
Yahoo! Slurp China 3135+460 25.83 M字节 2006年 九月 09日 12:21
Unknown robot (identified by 'crawl') 3431+6 78.98 M字节 2006年 九月 09日 12:23

有汇总后的数据,但是每个蜘蛛具体抓取了那些页面和抓取的频度就无法得知了,利用AWStats的扩展配置,统计也可以详细到每个蜘蛛的具体访问(参考了http://www.antezeta.com/awstats.html上的配置样例)。

注意:配置完Extra后可能会遇到以下这样的警告:

Phase 2 : Now process new records (Flush history on disk after 20000 hosts)...
Error: The number of values found for extra section 5 has grown too large.
In order to prevent awstats from using an excessive amount of memory, the number
of values is currently limited to 500. Perhaps you should consider
revising extract parameters for extra section 5. If you are certain you
want to track such a large data set, you can increase the limit by setting
ExtraTrackedRowsLimit in your awstats configuration file.

如果扩展配置统计的条目较多,比如:蜘蛛抓取的不同URL的个数很多,就需要在全局扩大一下ExtraTrackedRowsLimit这个参数,这个参数不像其他参数一样需要加编号,缺省最多统计500个项目,我扩大到了2万,ExtraTrackedRowsLimit=20000

完整设置如下:


ExtraSectionName5="Google crawls - Top 50"
ExtraSectionCodeFilter5="200 304"
ExtraSectionCondition5="UA,(.*Googlebot.*)"
ExtraSectionFirstColumnValues5="URL,(.*)"
ExtraSectionFirstColumnFormat5="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes5=PHBL
ExtraSectionAddAverageRow5=0
ExtraSectionAddSumRow5=5
MaxNbOfExtra5=50
MinHitExtra5=1

ExtraSectionName6="Baidu crawls - Top 50"
ExtraSectionCodeFilter6="200 304"
ExtraSectionCondition6="UA,(.*Baiduspider.*)"
ExtraSectionFirstColumnValues6="URL,(.*)"
ExtraSectionFirstColumnFormat6="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes6=PHBL
ExtraSectionAddAverageRow6=0
ExtraSectionAddSumRow6=6
MaxNbOfExtra6=50
MinHitExtra6=1

ExtraSectionName7="Yahoo Slurp crawls - Top 50"
ExtraSectionCodeFilter7="200 304"
ExtraSectionCondition7="UA,(.*Slurp.*)"
ExtraSectionFirstColumnValues7="URL,(.*)"
ExtraSectionFirstColumnFormat7="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes7=PHBL
ExtraSectionAddAverageRow7=0
ExtraSectionAddSumRow7=7
MaxNbOfExtra7=50
MinHitExtra7=1

ExtraSectionName8="MSN crawls - Top 50"
ExtraSectionCodeFilter8="200 304"
ExtraSectionCondition8="UA,(.*msnbot.*)"
ExtraSectionFirstColumnValues8="URL,(.*)"
ExtraSectionFirstColumnFormat8="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes8=PHBL
ExtraSectionAddAverageRow8=0
ExtraSectionAddSumRow8=8
MaxNbOfExtra8=50
MinHitExtra8=1

ExtraSectionName9="Sohu crawls - Top 50"
ExtraSectionCodeFilter9="200 304"
ExtraSectionCondition9="UA,(.*sogou.*)"
ExtraSectionFirstColumnValues9="URL,(.*)"
ExtraSectionFirstColumnFormat9="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes9=PHBL
ExtraSectionAddAverageRow9=0
ExtraSectionAddSumRow9=9
MaxNbOfExtra9=50
MinHitExtra9=1

ExtraTrackedRowsLimit=20000

输出样例: 从中可以发现一些蜘蛛的特点,百度只抓取中文内容,而在robots.txt的遵循上,百度是先抓后删,而Google/Yahoo!/MSN则从抓取队列中就会删除。而仍然不知是谁家的outfoxbot似乎对图片更感兴趣……

Google crawls - Top 50
网页数 文件数 字节 最近参观日期
/blog/ 41 41 272.41 K字节 2006年 九月 09日 20:37
/phpMan.php/phpinfo 4 4 110.92 K字节 2006年 九月 09日 19:27
/u2/lyrics.txt 4 4 221.90 K字节 2006年 九月 09日 20:55
/bbcweb/9.htm 4 4 4.91 K字节 2006年 九月 09日 21:58
/digest/20060907.html 3 3 26.60 K字节 2006年 九月 09日 20:55
/bbcweb/4.htm 3 3 3.15 K字节 2006年 九月 09日 21:58
/tech/lucene.html 3 3 64.98 K字节 2006年 九月 09日 21:59
/ 3 3 124.52 K字节 2006年 九月 09日 20:03
/robots.txt 3 3 696 个字节 2006年 九月 09日 17:49
/phpMan.php/man/perlform/1 3 3 68.74 K字节 2006年 九月 09日 23:47
/sitemap.html 3 3 14.90 K字节 2006年 九月 09日 01:49
/bbcweb/1.htm 3 3 6.34 K字节 2006年 九月 09日 21:58
/tech/ 3 3 14.39 K字节 2006年 九月 09日 20:55
/side_by_side/google_yahoo.html 3 3 1.14 K字节 2006年 九月 09日 20:55
/phpMan.php/man/hotplug/8 3 3 18.57 K字节 2006年 九月 09日 02:55
/phpMan.php/man/perllexwarn/1 3 3 60.44 K字节 2006年 九月 09日 23:47
/tech/acdsee.html 3 3 10.17 K字节 2006年 九月 09日 21:58
/digest/20060906.html 3 3 50.66 K字节 2006年 九月 09日 16:28
/tech/rotate_merge_log.html 3 3 91.96 K字节 2006年 九月 09日 16:56
/digest/20060905.html 3 3 56.00 K字节 2006年 九月 09日 16:28
/phpMan.php 3 3 7.94 K字节 2006年 九月 09日 04:30
/tech/study.html 3 3 19.62 K字节 2006年 九月 09日 21:58
/bbcweb/8.htm 3 3 4.77 K字节 2006年 九月 09日 21:59
/tech/oracle.html 3 3 19.57 K字节 2006年 九月 09日 21:59
/phpMan.php/man/curl_global_init/3 2 2 7.79 K字节 2006年 九月 09日 01:23
/tech/gnu.html 2 2 7.15 K字节 2006年 九月 09日 21:58
/tech/weblog.html 2 2 13.36 K字节 2006年 九月 09日 21:59
/phpMan.php/search/(2) 2 2 124.43 K字节 2006年 九月 09日 04:53
/tech/indent_tools.html 2 2 34.31 K字节 2006年 九月 09日 22:23
/blog/archives/001146.html 2 2 50.66 K字节 2006年 九月 09日 17:40
/phpMan.php/man/grubby/8 2 2 23.48 K字节 2006年 九月 09日 06:03
/bbcweb/10.htm 2 2 3.04 K字节 2006年 九月 09日 21:58
/blog/archives/001164.html 2 2 45.14 K字节 2006年 九月 09日 13:00
/phpMan.php/search/(6) 2 2 16.36 K字节 2006年 九月 09日 04:16
/phpMan.php/man/pdf2dsc/1 2 2 7.96 K字节 2006年 九月 09日 23:25
/phpMan.php/man/req/1 2 2 51.25 K字节 2006年 九月 09日 21:34
/tech/mysql.html 2 2 28.71 K字节 2006年 九月 09日 21:58
/blog/archives/001169.html 2 2 36.42 K字节 2006年 九月 09日 14:07
/phpMan.php/man/iopl/2 2 2 7.90 K字节 2006年 九月 09日 23:25
/phpMan.php/man/stdout/3 2 2 13.16 K字节 2006年 九月 09日 19:27
/phpMan.php/man/charset/1 2 2 4.40 K字节 2006年 九月 09日 04:33
/tech/google_ads.html 2 2 11.53 K字节 2006年 九月 09日 04:11
/phpMan.php/search/(9) 2 2 28.15 K字节 2006年 九月 09日 04:16
/phpMan.php/search/(8) 2 2 126.83 K字节 2006年 九月 09日 04:16
/tech/awstats.html 2 2 39.49 K字节 2006年 九月 09日 21:59
/tech/nat.html 2 2 18.39 K字节 2006年 九月 09日 21:59
/blog/archives/001199.html 2 2 18.38 K字节 2006年 九月 09日 15:45
/rolling_stones/stones/the_rolling_stones.smi 2 2 8.96 K字节 2006年 九月 09日 12:14
/blog/archives/001198.html 2 2 35.09 K字节 2006年 九月 09日 20:55
/phpMan.php/man/isdnctrl/8 2 2 40.42 K字节 2006年 九月 09日 23:32
总数 165 165 2.03 M字节


Baidu crawls - Top 50
网页数 文件数 字节 最近参观日期
/ 8 8 306.07 K字节 2006年 九月 09日 17:22
/robots.txt 4 4 928 个字节 2006年 九月 09日 14:30
/blog/ 4 4 220.84 K字节 2006年 九月 09日 15:34
/linkPopCheck.php 4 4 8.70 K字节 2006年 九月 09日 21:11
/blog/archives/001199.html 4 4 73.53 K字节 2006年 九月 09日 17:22
/phpMan.php 3 3 9.57 K字节 2006年 九月 09日 19:27
/blog/archives/001109.html 2 2 69.52 K字节 2006年 九月 09日 08:34
/tech/google_url.html 1 1 10.40 K字节 2006年 九月 09日 15:34
/blog/archives/001161.html 1 1 17.67 K字节 2006年 九月 09日 14:18
/cgi-bin/mt/mt-atom.cgi/weblog/blog_id=1 1 1 1.07 K字节 2006年 九月 09日 17:55
/blog/archives/000651.html 1 1 12.81 K字节 2006年 九月 09日 18:43
/blog/archives/000638.html 1 1 35.87 K字节 2006年 九月 09日 18:42
/blog/archives/001146.html 1 1 25.33 K字节 2006年 九月 09日 10:38
/blog/archives/000625.html 1 1 22.62 K字节 2006年 九月 09日 18:43
/blog/archives/000220.html 1 1 10.65 K字节 2006年 九月 09日 18:43
/blog/archives/001157.html 1 1 15.73 K字节 2006年 九月 09日 03:37
/digest/20050621.html 1 1 12.36 K字节 2006年 九月 09日 21:11
/blog/archives/000011.html 1 1 24.25 K字节 2006年 九月 09日 07:12
/blog/archives/000454.html 1 1 11.52 K字节 2006年 九月 09日 18:43
/digest/20060120.html 1 1 12.36 K字节 2006年 九月 09日 10:57
/tech/apache_install.html 1 1 12.36 K字节 2006年 九月 09日 01:25
/blog/archives/001052.html 1 1 12.56 K字节 2006年 九月 09日 18:43
/cgi-bin/mt/mt-atom.cgi/weblog/blog_id=1/entry_id=1174 1 1 1.07 K字节 2006年 九月 09日 10:57
/blog/archives/001094.html 1 1 19.27 K字节 2006年 九月 09日 18:43
/blog/archives/000519.html 1 1 16.59 K字节 2006年 九月 09日 18:43
/blog/archives/000950.html 1 1 29.79 K字节 2006年 九月 09日 18:42
/digest/20060908.html 1 1 18.01 K字节 2006年 九月 09日 17:22
/tech/google.html 1 1 12.36 K字节 2006年 九月 09日 15:34
/blog/archives/001164.html 1 1 22.57 K字节 2006年 九月 09日 00:37
/blog/archives/000005.html 1 1 10.27 K字节 2006年 九月 09日 07:12
/blog/archives/001182.html 1 1 16.05 K字节 2006年 九月 09日 03:02
/blog/archives.html 1 1 12.36 K字节 2006年 九月 09日 22:41
/blog/archives/001085.html 1 1 14.31 K字节 2006年 九月 09日 18:43
/blog/archives/001131.html 1 1 27.04 K字节 2006年 九月 09日 11:18
/bbcweb/204.htm 1 1 3.05 K字节 2006年 九月 09日 21:11
/site_search.php 1 1 1.54 K字节 2006年 九月 09日 08:36
/blog/archives/001040.html 1 1 20.35 K字节 2006年 九月 09日 18:43
/blog/archives/001139.html 1 1 24.43 K字节 2006年 九月 09日 18:42
/blog/archives/000859.html 1 1 16.03 K字节 2006年 九月 09日 05:46
/digest/20050926.html 1 1 12.36 K字节 2006年 九月 09日 21:11
/blog/archives/000284.html 1 1 25.01 K字节 2006年 九月 09日 18:43
/blog/archives/2005_12.html 1 1 12.36 K字节 2006年 九月 09日 22:55
/blog/archives/000741.html 1 1 12.36 K字节 2006年 九月 09日 08:35
/blog/archives/000498.html 1 1 10.55 K字节 2006年 九月 09日 18:43
/bbcweb/218.htm 1 1 3.61 K字节 2006年 九月 09日 10:57
/tech/cvs.ppt 1 1 12.34 K字节 2006年 九月 09日 08:40
/blog/archives/000645.html 1 1 14.01 K字节 2006年 九月 09日 18:43
/blog/archives/000632.html 1 1 10.22 K字节 2006年 九月 09日 18:43
/blog/archives/001124.html 1 1 53.21 K字节 2006年 九月 09日 04:14
/blog/archives/001044.html 1 1 13.90 K字节 2006年 九月 09日 08:40
总数 72 72 1.34 M字节


Yahoo Slurp crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 104 104 23.56 K字节 2006年 九月 09日 23:38
/ 16 16 665.58 K字节 2006年 九月 09日 23:36
/blog/archives/001189.html 8 8 102.40 K字节 2006年 九月 09日 22:12
/tech/indent_tools.html 7 7 117.59 K字节 2006年 九月 09日 22:39
/tech/google.html 7 7 251.04 K字节 2006年 九月 09日 23:32
/blog/ 6 6 329.88 K字节 2006年 九月 09日 23:19
/tech/apache_install.html 5 5 90.00 K字节 2006年 九月 09日 23:15
/blog/archives/001196.html 5 5 173.59 K字节 2006年 九月 09日 23:48
/blog/archives/000751.html 5 5 104.12 K字节 2006年 九月 09日 23:21
/blog/archives/001197.html 5 5 174.99 K字节 2006年 九月 09日 22:37
/tech/lucene.html 4 4 136.91 K字节 2006年 九月 09日 23:57
/blog/archives/000828.html 4 4 107.72 K字节 2006年 九月 09日 23:27
/tech/link_pop_check.html 4 4 44.79 K字节 2006年 九月 09日 23:04
/tech/cms.html 4 4 61.17 K字节 2006年 九月 09日 22:13
/tech/awstats.html 4 4 56.19 K字节 2006年 九月 09日 22:58
/linkPopCheck.php 4 4 8.65 K字节 2006年 九月 09日 21:39
/blog/archives/001199.html 4 4 55.15 K字节 2006年 九月 09日 22:14
/blog/archives/000644.html 3 3 81.88 K字节 2006年 九月 09日 19:52
/tech/cvs_card.html 3 3 82.04 K字节 2006年 九月 09日 22:44
/blog/archives/000001.html 3 3 93.52 K字节 2006年 九月 09日 23:23
/blog/archives/001198.html 3 3 35.09 K字节 2006年 九月 09日 22:49
/blog/archives/cat_tech_notes.html 2 2 509.34 K字节 2006年 九月 09日 23:48
/phpMan.php/man/pkgCache::PkgFileIterator 2 2 4.08 K字节 2006年 九月 09日 23:58
/digest/20060908.html 2 2 36.03 K字节 2006年 九月 09日 19:40
/tech/resin.html 2 2 18.64 K字节 2006年 九月 09日 18:24
/blog/archives/000496.html 2 2 32.08 K字节 2006年 九月 09日 18:22
/blog/archives/000741.html 2 2 77.94 K字节 2006年 九月 09日 21:56
/blog/archives/000790.html 2 2 47.28 K字节 2006年 九月 09日 22:03
/phpMan.php/man/FindBin/3 1 1 5.18 K字节 2006年 九月 09日 14:08
/phpMan.php/man/chr/11 1 1 8.74 K字节 2006年 九月 09日 18:47
/phpMan.php/man/Win32::API 1 1 1.98 K字节 2006年 九月 09日 23:02
/phpMan.php/man/ocsp/1ssl 1 1 2.05 K字节 2006年 九月 09日 23:53
/tech/gnu.html 1 1 7.15 K字节 2006年 九月 09日 20:07
/phpMan.php/man/foomatic-datafile/1 1 1 2.01 K字节 2006年 九月 09日 18:21
/phpMan.php/man/pkgCache::PrvIterator 1 1 2.03 K字节 2006年 九月 09日 18:11
/phpMan.php/man/INVARIANT/3 1 1 1.98 K字节 2006年 九月 09日 20:54
/phpMan.php/man/Apache::TestMB 1 1 2.00 K字节 2006年 九月 09日 22:47
/phpMan.php/man/DBM::Deep 1 1 1.98 K字节 2006年 九月 09日 18:34
/phpMan.php/man/Pod::Select 1 1 13.29 K字节 2006年 九月 09日 21:21
/digest/20051218.html 1 1 0 2006年 九月 09日 23:44
/phpMan.php/man/Other::CONST 1 1 1.99 K字节 2006年 九月 09日 23:21
/blog/archives/001146.html 1 1 25.33 K字节 2006年 九月 09日 11:44
/phpMan.php/man/DH_check/3ssl 1 1 2.10 K字节 2006年 九月 09日 16:15
/phpMan.php/man/fxload/8 1 1 11.27 K字节 2006年 九月 09日 19:44
/phpMan.php/man/VOP_LEASE/9 1 1 1.99 K字节 2006年 九月 09日 14:22
/phpMan.php/man/XCopyArea/3x 1 1 1.98 K字节 2006年 九月 09日 14:27
/phpMan.php/man/log/3 1 1 3.07 K字节 2006年 九月 09日 23:28
/digest/20050525.html 1 1 23.48 K字节 2006年 九月 09日 23:41
/phpMan.php/man/Data::Buffer/3 1 1 2.00 K字节 2006年 九月 09日 16:57
/blog/archives/000661.html 1 1 20.83 K字节 2006年 九月 09日 22:28
总数 244 244 3.58 M字节


MSN crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 9 9 2.04 K字节 2006年 九月 09日 20:38
/phpMan.php/man/getpwnam/lgn 3 3 21.21 K字节 2006年 九月 09日 23:45
/phpMan.php/man/CGI::Session 2 2 53.71 K字节 2006年 九月 09日 23:48
/side_by_side/search_form_utf8.html 2 2 1.57 K字节 2006年 九月 09日 19:06
/phpMan.php/man/munlockall/2 1 1 3.39 K字节 2006年 九月 09日 20:07
/ 1 1 6.63 K字节 2006年 九月 09日 16:20
/blog/archives/001083.html 1 1 15.91 K字节 2006年 九月 09日 17:13
/blog/archives/cat_appinstall.html 1 1 98.97 K字节 2006年 九月 09日 19:05
/phpMan.php/man/rpc.nfsd/8 1 1 4.26 K字节 2006年 九月 09日 18:20
/bbcweb/223.htm 1 1 2.48 K字节 2006年 九月 09日 14:26
/blog/archives/001047.html 1 1 19.07 K字节 2006年 九月 09日 17:47
/phpMan.php/man/isdntime/5 1 1 1.94 K字节 2006年 九月 09日 15:09
/phpMan.php/man/SSL_CTX_set_session_cache_mode/3 1 1 8.29 K字节 2006年 九月 09日 20:25
/phpMan.php/man/XML::PerlSAX::DOM 1 1 1.97 K字节 2006年 九月 09日 22:19
/blog/archives/000738.html 1 1 13.47 K字节 2006年 九月 09日 20:38
/phpMan.php/man/unzipsfx/1 1 1 17.98 K字节 2006年 九月 09日 20:45
/phpMan.php/man/mbadblocks/1 1 1 4.64 K字节 2006年 九月 09日 14:10
/phpMan.php/man/wmemchr/3p 1 1 4.37 K字节 2006年 九月 09日 22:51
/blog/archives/000220.html 1 1 10.65 K字节 2006年 九月 09日 14:34
/blog/archives/000208.html 1 1 9.65 K字节 2006年 九月 09日 15:58
/phpMan.php/man/integer/3pm 1 1 11.47 K字节 2006年 九月 09日 22:34
/blog/archives/000550.html 1 1 11.97 K字节 2006年 九月 09日 11:48
/phpMan.php/man/cut/1p 1 1 15.37 K字节 2006年 九月 09日 12:28
/blog/archives/000454.html 1 1 11.52 K字节 2006年 九月 09日 11:58
/phpMan.php/man/adsl-start/8 1 1 3.68 K字节 2006年 九月 09日 22:46
/phpMan.php/man/df/1 1 1 5.58 K字节 2006年 九月 09日 16:00
/phpMan.php/man/mmove/1 1 1 4.82 K字节 2006年 九月 09日 18:36
/blog/archives/2006_03.html 1 1 33.75 K字节 2006年 九月 09日 23:52
/phpMan.php/man/adsl-setup/8 1 1 3.48 K字节 2006年 九月 09日 20:41
/tech/robots.pm 1 1 78.83 K字节 2006年 九月 09日 20:13
/phpMan.php/man/ash/1 1 1 15.46 K字节 2006年 九月 09日 20:56
/blog/archives/001164.html 1 1 22.57 K字节 2006年 九月 09日 17:17
/phpMan.php/man/CGI::Session::ErrorHandler/3pm 1 1 2.11 K字节 2006年 九月 09日 19:57
/phpMan.php/man/sem_open/3p 1 1 9.64 K字节 2006年 九月 09日 23:19
/phpMan.php/man/locale/5 1 1 15.30 K字节 2006年 九月 09日 20:14
/phpMan.php/man/clock/3p 1 1 4.84 K字节 2006年 九月 09日 13:21
/phpMan.php/man/tiffgt/1 1 1 8.38 K字节 2006年 九月 09日 14:40
/blog/archives/001081.html 1 1 14.33 K字节 2006年 九月 09日 18:26
/phpMan.php/man/stime/2 1 1 3.19 K字节 2006年 九月 09日 15:06
/blog/archives/000656.html 1 1 17.83 K字节 2006年 九月 09日 17:33
/tech/google_ads.html 1 1 15.55 K字节 2006年 九月 09日 19:23
/phpMan.php/man/uuid_parse/3 1 1 3.73 K字节 2006年 九月 09日 12:13
/bbcweb/ 1 1 2.40 K字节 2006年 九月 09日 12:45
/phpMan.php/man/SSL_CTX_add_session/3 1 1 4.94 K字节 2006年 九月 09日 21:12
/phpMan.php/man/diskdumpctl/8 1 1 3.28 K字节 2006年 九月 09日 14:55
/phpMan.php/man/passwd/1 1 1 9.06 K字节 2006年 九月 09日 19:43
/blog/archives/000805.html 1 1 20.12 K字节 2006年 九月 09日 17:11
/bbcweb/2.htm 1 1 1.88 K字节 2006年 九月 09日 15:58
/phpMan.php/man/gzcat/1L 1 1 1.93 K字节 2006年 九月 09日 15:15
/phpMan.php/man/string/3 1 1 6.71 K字节 2006年 九月 09日 22:49
总数 62 62 665.90 K字节


Sohu crawls - Top 50
网页数 文件数 字节 最近参观日期
/blog/archives/000955.html 3 3 46.87 K字节 2006年 九月 09日 23:34
/tech/gnu.html 1 1 7.14 K字节 2006年 九月 09日 15:55
/blog/archives/000728.html 1 1 48.14 K字节 2006年 九月 09日 23:00
/blog/archives/000100.html 1 1 15.54 K字节 2006年 九月 09日 19:45
/blog/archives/000012.html 1 1 23.06 K字节 2006年 九月 09日 16:02
/digest/20060701.html 1 1 39.31 K字节 2006年 九月 09日 12:38
/digest/20050823.html 1 1 43.52 K字节 2006年 九月 09日 13:12
/blog/archives/2004_02.html 1 1 48.14 K字节 2006年 九月 09日 20:59
/digest/20060703.html 1 1 45.31 K字节 2006年 九月 09日 20:54
/blog/archives/000646.html 1 1 51.85 K字节 2006年 九月 09日 16:29
/index.php/blog/tech/index.php/side_by_side/google_yahoo.html 1 1 41.31 K字节 2006年 九月 09日 13:27
/blog/archives/001058.html 1 1 70.79 K字节 2006年 九月 09日 11:55
/blog/archives/000267.html 1 1 27.10 K字节 2006年 九月 09日 20:01
总数 15 15 508.09 K字节


OutfoxBot crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 3 3 696 个字节 2006年 九月 09日 15:53
/blog/archives/newsgator_buzz.png 1 5.95 K字节 2006年 九月 09日 15:53
/blog/archives/pairs.png 1 84.68 K字节 2006年 九月 09日 15:01
/blog/archives/firefox-rss.png 1 29.18 K字节 2006年 九月 09日 15:03
/blog/archives/pairs_wikipedia.png 1 84.56 K字节 2006年 九月 09日 13:19
/blog/archives/newsgator-incoming.png 1 5.82 K字节 2006年 九月 09日 15:02
总数 3 8 210.87 K字节

作者:车东 发表于:2006-09-10 09:09 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

我在计划把 outfoxbot 屏蔽掉。这个爬虫消耗了我很多资源

非常不错,我很希望能认识一些做搜索引擎系统架构的朋友,不知道可否推荐几位,谢谢。

Outfox只知道是国内所为,暂时还没有人认真去查

不过在国外,已经有很多网友开始注意到它了,一个不看robots.txt的“没文化”的爬虫,居然关注robot.txt。

又是一个给中国人丢人的东西,因为它已经不是爬虫,是资源杀手

请问AWstate有没有好用的开放API?想集成到现有的系统中去。

ExtraSection能不能一天一条数据啊?而不是现在这样累加的值。

Outfox就是网易的有道啊。
yodao.com
这个你们应该知道吧?
看了有道不够文明。

outfox确实是有道,非常垃圾,俄已经彻底把它屏蔽,该死的乱货!

outfox确实是网易的有道,非常垃圾,我已经彻底把它屏蔽

有道虽然垃圾,但是最近已经有有道过来的成交用户了。

这个文章无效了!对于目前的版本已经没有办法配置了!有啥新方法么?

Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 137.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 138.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 139.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 140.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 141.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 143.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 144.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 145.
syntax error at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 138, near "ExtraSectionCodeFilter5"
"use" not allowed in expression at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 149, at end of line

编辑运行后出错! 555555555555

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2006年09月10日 上午09时29分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 twiki 4.0.x 安全漏洞警告:服务端任意文件读取

此 Blog 的后一篇日记是 用sed批量替换文件中的字符

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36