首页 > BLOG建设 > baiduspider只爬首页

baiduspider只爬首页

2009年5月4日 发表评论 阅读评论

  本站开张有6天了,在开张的第三天就被google和百度收录了首页!这几天一直在通过搜索引擎和服务器日志观察抓取的情况,但几天下来在搜索引擎中也只能找到主页,其他页面根本没有。
  查看这几天的IIS日志发现从5月1日开始出现了baiduspider的第一个访问:

2009-05-01 10:34:34 GET /robots.txt - 80 - 220.181.7.103 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64

寻找robots.txt文件的,站点上没有。404

  5月2日的IIS日志中开始就有大量来自googlebot和baiduspider的访问,几乎把本站爬完了。

2009-05-02 12:24:13 GET /index.php - 80 - 220.181.7.68 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

上面是baiduspider爬首页的记录

  到5月3日起baiduspider只爬了首页index.php而且访问的记录也发生了变化。

2009-05-03 21:08:57 GET /index.php - 80 - 220.181.7.97 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64

到今天日志中关于baiduspider的记录几乎都和上面一样。

  比较这几天来看就是状态码不一样,爬得比较多那天是200 0 0,只爬首页这两天是200 0 64
这三个状态码分别是sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)
  sc-status中200表示访问成功,404表示访问的页面不存在,具体的还有一些,这里就不多说了。sc-substatus没找到相关的说明。sc-win32-status ,0表示的应该是正常,64表示”指定的网络名不再可用”.郁闷,index.php可以访问的啊,为什么会出现64不可访问呢?到百度查查,大多数文章中都认为64是将要被baiduspiderK掉的迹象。不会这么倒霉吧,才开张几天就要被K掉??

再看看IIS日志发现200 0 64这样的状态码还比较多如:

2009-05-03 02:11:40  GET /wp-content/themes/inove/img/light.gif - 80 - 61.157.202.36 Mozilla/4.0+(......) 200 0 64
2009-05-03 02:11:40  GET /wp-content/themes/inove/img/header_footer.jpg - 80 - 61.157.202.36 Mozilla/4.0+(.........) 200 0 64

从这两天访问记录分析来看200 0 64并不像网上某些文章说的那样是要被K掉的迹象,而是客户端已经有了该资源,而不再从服务器上下载该资源的状态码。

  那么对于baiduspider而言,200 0 64应该是因为index.php没有更新不再爬的状态码。问题找到了,看来要常更新首页。
  但为什么我的其他页面却没有在搜索引擎中出现了,原来新站点都会有个观察期,一般是半个月左右,这段时间一过页面就会出现在搜索引擎中了。

分类: BLOG建设 标签:
  1. 2009年5月6日18:36 | #1

    Hi, nice post. I have been pondering this topic,so thanks for writing. I’ll certainly be subscribing to your blog. Keep up the good posts

点击刷新