如何书写Robots搜索引擎协议

浏览次

admin

2016-09-06 17:29:10

　　百度百科对robots的定义：Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。简单来说就是网站和搜索引擎签署的一个协议，协议里面的路径不要抓取收录。

　　为什么要有robots协议、Robots协议也就是robots.txt文本文件，当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt。如果存在，搜索爬虫就会按照该文件中的内容来确定访问的范围；如果robots.txt文件不存在，搜索爬虫将会抓取网站上所有没有被口令保护的页面。

　　网站里面有低质量、死链接内容这样的建议屏蔽，百度如果抓取你的好多低质量页面会拉低网站的质量降低权重影响搜索引擎对你网站的印象，比如男女开始谈对象都会把不好的一面藏起来，还有网站后台会员隐私一般都屏蔽。robots协议写法

　　User-agent 描述搜索引擎的蜘蛛的名字

　　Disallow 描述不想被访问的路径

　　Allow 指示想被抓取的路径

　　"*" 通配符，表示匹配所有

　　"$" 结束符号

　　Sitemap 网站地图路径

　　例1：禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　例2：允许所有的蜘蛛访问网站任何部分你也可以建立一个空文件robots.txt

　　User-agent: *

　　Allow: /

　　例3：只禁止某一个蜘蛛访问您的网站

User-agent: Baiduspider

　　Disallow: /

　　例4：只允许某一个蜘蛛访问您的网站

　　User-agent: Baiduspider

　　Allow: /

　　User-agent: *

　　Disallow: /

robots写法

　　例6：禁止蜘蛛抓取特定的路径

　　User-agent: *

　　Disallow: /aaa/ 禁止所有蜘蛛访问"aaa"路径下的文件

Disallow: /bbb/ 禁止所有蜘蛛访问"bbb"路径下的文件

　　Disallow: /aaa/ccc/ 禁止所有蜘蛛访问"aaa"下面的ccc路径

　　Disallow: /aaa/*.html 禁止访问aaa路径下的所有带.html为后缀的路径

　　Disallow: /*?* 禁止访问网站中所有的带问号路径即动态页面

　　Disallow: /*?$ 禁止访问网站以问号结尾的任何路径

　　Disallow: /*.php$ 禁止访问以.php为结尾的任何路径

　　例7：仅允许访问某个特定的路径

　　User-agent: *

　　Disallow: /

　　Allow: /*.html 只允许访问网站以 .html 为后缀的路径

　　例8：禁止抓取某种格式图片

　　User-agent: *

　　Disallow: /*.jpg$

　　Disallow: /*.gif$

　　Disallow: /*.png$

　　Robots协议的检查

　　网站的robots协议是一个txt文本文件，robots.txt文件写好后要放到网站的根目录，可以通过访问路径：你的域名/robots.txt来检查正确性，可以在百度的站长平台检查协议正确与否，同时把网站地图路径加进去最好，有利于蜘蛛爬去和收录您的网页。通过百度站长工具检查Robots协议

　　Robots协议书写注意事项

　　robots协议里的面首字母要大写，字母后面的冒号必须是英文状态；冒号后面"/"之前还有空格，在"/"后面如果只是屏蔽某个特定路径，千万不要再有空格,否则搜索引擎就会认为你是屏蔽整个网站。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。这里区别一下“Disallow: /aaa/'和"Disallow: /aaa"，前者这是屏蔽了aaa后面的路径不被蜘蛛抓取到，而后者则表示连同aaa这个路径也被屏蔽掉。深圳SEO小星星博客的robots协议是这样写的：http://www.xinxing327.com/robots.txt