百度百科对robots的定义:Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。简单来说就是网站和搜索引擎签署的一个协议,协议里面的路径不要抓取收录。
为什么要有robots协议、Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取网站上所有没有被口令保护的页面。
网站里面有低质量、死链接内容这样的建议屏蔽,百度如果抓取你的好多低质量页面会拉低网站的质量降低权重影响搜索引擎对你网站的印象,比如男女开始谈对象都会把不好的一面藏起来,还有网站后台会员隐私一般都屏蔽。robots协议写法
User-agent 描述搜索引擎的蜘蛛的名字
Disallow 描述不想被访问的路径
Allow 指示想被抓取的路径
"*" 通配符,表示匹配所有
"$" 结束符号
Sitemap 网站地图路径
例1:禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2:允许所有的蜘蛛访问网站任何部分你也可以建立一个空文件robots.txt
User-agent: *
Allow: /
例3:只禁止某一个蜘蛛访问您的网站
User-agent: Baiduspider
Disallow: /
例4:只允许某一个蜘蛛访问您的网站
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
例6:禁止蜘蛛抓取特定的路径
User-agent: *
Disallow: /aaa/ 禁止所有蜘蛛访问"aaa"路径下的文件
Disallow: /bbb/ 禁止所有蜘蛛访问"bbb"路径下的文件
Disallow: /aaa/ccc/ 禁止所有蜘蛛访问"aaa"下面的ccc路径
Disallow: /aaa/*.html 禁止访问aaa路径下的所有带.html为后缀的路径
Disallow: /*?* 禁止访问网站中所有的带问号路径即动态页面
Disallow: /*?$ 禁止访问网站以问号结尾的任何路径
Disallow: /*.php$ 禁止访问以.php为结尾的任何路径
例7:仅允许访问某个特定的路径
User-agent: *
Disallow: /
Allow: /*.html 只允许访问网站以 .html 为后缀的路径
例8:禁止抓取某种格式图片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.gif$
Disallow: /*.png$
Robots协议的检查
网站的robots协议是一个txt文本文件,robots.txt文件写好后要放到网站的根目录,可以通过访问路径:你的域名/robots.txt来检查正确性,可以在百度的站长平台检查协议正确与否,同时把网站地图路径加进去最好,有利于蜘蛛爬去和收录您的网页。通过百度站长工具检查Robots协议
Robots协议书写注意事项
robots协议里的面首字母要大写,字母后面的冒号必须是英文状态;冒号后面"/"之前还有空格,在"/"后面如果只是屏蔽某个特定路径,千万不要再有空格,否则搜索引擎就会认为你是屏蔽整个网站。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。这里区别一下“Disallow: /aaa/'和"Disallow: /aaa",前者这是屏蔽了aaa后面的路径不被蜘蛛抓取到,而后者则表示连同aaa这个路径也被屏蔽掉。深圳SEO小星星博客的robots协议是这样写的:http://www.xinxing327.com/robots.txt
版权声明:本站原创文章,由深圳SEO小星星发表,如有转载请注明来源处。深圳SEO小星星博客www.xinxing327.com
百度搜索结果中显示站点LOGO技巧视频教程
又一部“像素大战”来袭,索尼对Emoji电影不死心 - emoji,表情,索尼电影
微信群内辱骂他人,被判侵犯名誉权赔偿千元 - 微信,朋友圈
AlphaGo们的邪恶用途:日本象棋选手被控请AI作弊 - alphago,人工智能,AI
马云又给你钱用,蚂蚁花呗双11最高可提额5.5万元
seo如何分析数据
38岁全球最年长圈养大熊猫在香港安乐死离世 - 大熊猫
SEO技巧:谈谈通过刷百度指数提升网站权重的技巧,百度指数怎么刷
深度解析百度蜘蛛3.0发布后SEO的操作技巧
SEO方案:实战分析企业网站优化建议书
SEO的春天了吗?与新媒体结合
SEO教程:最新网站TDK的写法技巧
网站底部你不可忽略的seo优化死角
SEO优化时妙不可言的图片属性
浅谈网站怎么实现百度秒收录
网站图片SEO优化的细节包括哪些?
深圳SEO:老域名正反面优化排名分析
SEO:站内站外形成链轮的深度分析
深圳SEO:上海森亿百度负面相关处理
深圳SEO:小星星SEO介绍
SEO优化:今天阐述一下老域名做排名的优势
深圳seo今天来阐述一下镜像网站对排名的影响
深圳SEO:做到以下5点网站不更新内容不发外链排名还是会稳定
深圳SEO:快速排名到底是真是假 ,今天小编就来发表一下自己观点