建站知识

Welcome to Beijing RuiHeng TianLong Technology Co., Ltd.

怎样看百度蜘蛛是否来过网站,通过日志来查看蜘蛛是否来过,万网空间日志怎么查看蜘蛛?

时间:  来源:网站建设公司  作者:网站制作公司  点击量:
北京网站制作,网站万网空间
怎么查看百度蜘蛛是否到过你的网站,每天来的次数是多少,怎么样通过日志来分析蜘蛛爬虫是否来过,如果看完下面还不明白请联系我们技术支持
万网是国内比较大的网站空间服务商,在北京网站制作市场占有很大比例,那么下面我们以万网空间为例:
来了解一下这个问题,首先到ftp中下载名字为wwwlogs中的日志文件,如果你的空间没有这个文件夹,那么要到控制面板里面设置一下
具体方法是:登录控制面板-->申请统计报告这样就可以了

然后到wwwlogs文件夹中下载当天的日志看扩展名为.log.gz
打开或会发现

得到的大概是这中东西
(KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4" rh98m3.com-unauthorised image/jpeg "/usr/home/hmu162155/htdocs/images/pic03.jpg"
219.142.245.89 - - [27/Apr/2013:17:08:36 +0800] "GET /favicon.ico HTTP/1.1" 404 209 "-" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4" rh98m3.com-unauthorised text/html "/usr/home/hmu162155/htdocs/favicon.ico"
219.142.245.89 - - [27/Apr/2013:17:31:41 +0800] "GET /myfolder/ HTTP/1.1" 404 207 "-" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4" rh98m3.com-unauthorised text/html "/usr/home/hmu162155/htdocs/myfolder"
219.142.245.89 - - [27/Apr/2013:17:31:41 +0800] "GET /favicon.ico HTTP/1.1" 404 209 "-" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4" rh98m3.com-unauthorised text/html "/usr/home/hmu162155/htdocs/favicon.ico"
219.142.245.89 - - [27/Apr/2013:17:35:32 +0800] "GET /jsidjid HTTP/1.1" 404 205 "-" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4" rh98m3.com-unauthorised text/html "/usr/home/hmu162155/htdocs/jsidjid"
219.142.245.89 - - [27/Apr/2013:17:35:32 +0800] "GET /favicon.ico HTTP/1.1" 404 209

我们来分析一下
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.*代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.*广东茂名市电信也属于百度蜘蛛IP主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

220.181.108.92同上98%抓取首页,可能还会抓取其他(不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP权重段,一般返回代码是30400代表未更新。

123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.94专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.97专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.80专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.77专用抓首页IP权重段,一般返回代码是30400代表未更新。

123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP权重段,一般返回代码是30400代表未更新。

注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。

220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证



How to check whether the Baidu spider to your site, to the number of times every day, how log analysis to spiders, if after reading the following do not understand, please contact our technical support

 

本文TAG标签: 网站万网空间 北京网站制作
返回关闭本页
上一篇:更换网站空间对网站优化有影响吗?更换ip对网站建设有影响吗?    下一篇:企业怎么建设网站,中小企业网站怎么制作?
推荐阅读

Copyright © 2010-2021 北京瑞恒天龙科技有限公司  All Rights Reserved  |  北京网站建设知名服务商  |  北京网站制作 | 京ICP备11004170号-1   京公网安备110107000463号
地址:北京市海淀区永定路长银大厦B座  非工作时间:15810379666  服务热线:400-809-6709  版权所有 盗版必究!

在线咨询
关闭
电话咨询
网站制作电话
400-809-6709