当前位置:首页 > seo工具 / 正文
后台-系统设置-扩展变量-手机广告位-内容页头部广告位
作者:xingxing

爬虫日志如何分析【seo站长必备技能】

xingxing 3年前(2016-09-17 10:28:24) seo工具

   今天和大分享的是如何进行网站日志分析,如何进行网站日志分析是每个做SEO的站长所要撑 握的基本技能之一,下面就来讲解如何进行网站日志分析。

  【1】.分析网站日志的目的是什么?我相信很多做SEO的朋友都没有重视,有一小部份做SEO的朋友发现网站有问题以后才去分析网站日志,我个人觉得网站日志是每个SEO日常工作的一部分,只有我们经常去分析这个网站才能找到规律,发现问题,最后解决问题,这是我们分析网站的一个目的。

  【2】.网站日志包含哪些基本维度?总访问量次数,总停留时间,以及搜索引擎抓取总量等

  【3】.如何结合软件分析日志文件,把这些杂乱的数据能通过量化提到报表里面,这是我们所要通过软件发现网站出现问题.

  一.什么是网站日志:网站日志(确切的说是服务器日志)可以记录各大搜索引擎蜘蛛机器人爬行网站的详细情况,比如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问时返回的HTTP状态码日志文件是怎么产生的?用户从不同的终端浏览服务器上的任何一个页面,服务器维客户展现页面的同时,同时在日志文件里面留下一条日志。下面我用一张图片来简单的分析下网站日志产生的过程,这个图片很清楚的说明网站日志产生过程,我们可以看到左手边有两台脑这就代表我们的一个用户,当用户访问一个网站的时候其实是访问在这个网站某个页面,比如这个名字叫 page1这个时候访问行业会请求到我们网站的服务器page1的这个文件,然后把这个文件下载到我们的浏览器,由于请求和下载行为它都会引起服务器的响应因此我们的服务器就有必要记录下的这些行为。

爬虫日志

  1.网站日志内容:

  a..从用户的角度来讲:用户IP.时间段.浏览环境.访问页面.是否成功有没有正常显示在用户面前

  b.搜索引擎的角度来讲:活跃程度.亲和程度.抓取深度.抓取时间.总访问次数等.

  2.为什么要分析网站日志

  a.网站更新了大量文章,为什么被搜索引擎收录数量却没有几篇文章

  b.网站优化好好的,为什么流量在大幅度波动,我们也没有做什么改动

  c.有时候我们想重要分类获得排名,但是为什么页面没能及时收录以及更新

  d.我们和竟争对手现在产差距到底在哪里,我们网站结构设置上是否存在问题,是否存在改

  进的空间,这些我们都可以通过网站日志分析来得到答案:其实我们网站日志分析就是惯彻SEO是以数据说话的,拒绝瞎猜。

  3.我们要分析就要知道网站日志文件存放在哪里?,一般我们通过FTP软件,可以看到有这几个文件,如图:logfiles这个是存放我们日志,它会特定格式记录每天对访问服务器的行为。

  4.顺便补充下空间里的这些文件都有什么用?

  a.这个www.root 这个文件大家最熟悉不过;wwwroot.存放的就是对外发布的网站内容,就是 输入域名访问到的文件 将是该文件夹下的文件

  b.logfiles.文件夹存放日志文件,通过日志文件你可以查询到网站的一些访问记录。

  c.databases 可以上传一些不希望别人能够访问的文件,比如你可以将access数据库存放 databases文件夹下,这样可以最大化的保证你的数据库安全

  d.others 自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误.403错误.500错误等。

  5.我们如何解读网站原始日志文件?我拿了一个文件出来解析,打开后看见这些密密麻麻的代 码,这样我们不容易分析,

  6.这就是一条标准的服务器日志,这样看就很容易理解

爬虫日志

  二.网站日志包含哪些基本维度?日志分析需要关注哪些维度呢?

  1.总访问次数 :总访问次数和那些因素有关系呢,下面简单列了几种

  a.网站权重,这个很容易理解一个网站权重越高搜索引擎所花在这个网站的时间就会越长,访问的次数也就越多

  b.服务器性能:服务器性能一台服务器越稳定,宽带充足它能够承载搜索引擎的访问次数就会越多

  c.外链建设:外链建设的越多广泛入口越多搜索引擎进入我们网站的概率就越大

  d.网站层级结构:网站层级结构如果我们网站尊询树形结构那么搜索引擎容易从顶端一直爬到每个树枝的末端基本能把网站抓取一遍。

  e.入口页面:入口页面很多时候我们都会把重要的信息放在前面,就是为了提升网站的总访问次数。

  2.总停留时间:a.网站结构。b.服务器响应时间。c.网站代码简洁度。d.网站内容更新机制。

  3.总换取量总换取量a.网站的结构。b.网站内容质量。c.服务器Cookie设定搜索引擎抓取量与网站的收录直接相关,抓取 量越大意味着网站收录可能越多。

  4.单次访问抓取量:单次访问抓取量=总访问次娄/总抓取量,越多越好内容质量高,网站结构利于抓取

  5.单页面抓取停留时间:单次访问抓取量=总停留时间/总抓取量,超短越好,页面加载速度 ,内容信息量,代码简洁度

  6.目录抓取:搜索引擎主要抓取的目录应该与网站的重点栏目一致a.需要从外链,内链等角度调整SEO策略。b.针对不需要收录或者搜索引擎抓取的栏目,需要使用robots禁止搜索引擎抓取。

  7.页面抓取a.为重要页面建设入口。b.减少页面的重复抓取率。c.将搜索引擎引入更多不同的页面。

  8.状态码,看看返回码是否正常 ,每个页面都会有返回码作为一个重要的指标。

爬虫日志

  三.通过日志分析发现问题

  1.总访问量次数偏少,最主要是网站权重偏低,提升权重是首要任务,多在外链上多上功夫

  2.单页面时间抓取页面数量偏少,网站结构不合理,导致搜索引擎爬行不顺或者总是抓取到重复页面,检查站内结构是关键

  3.搜索引擎总是抓取不重要的分类及文件,可以调整不重要页面的入口链接。加大重要页面的站内或者站外入品,在ROBOTS中合理屏蔽掉JS及CSS文件夹。

  4.出现大量非200状态码,及时检查并纠正。

标 签

试试用"←"或"→"方向键快速翻页把 (^o^)/

后台-系统设置-扩展变量-手机广告位-内容页头部广告位
留言与评论(共有 0 条评论)
   
验证码:
搜索
热门图片
最近更新

Powered By 小星星SEO博客

粤ICP备16041893号-1 seo技术交流群