当前位置:首页 » 好文分享 » 详情

    robots文件完整写法及注意事项

    robots.txt 是存放在站点根目录下的一个的纯文本文件,搜索引擎蜘蛛进入网站做的第一件事就是查看网站robots文件,看看其规定了什么?它具有强大的功能和作用,从seo优化角度来说,一份好的robots文件可以规定搜索引擎蜘蛛那些内容可以抓取,哪些内容不能抓取,这也为搜索引擎节约了大量的搜索资源,对于搜索引擎来说肯定是比较喜欢的,同时也可以让搜索引擎对我们的站点增加友好度,以及网站的动态链接统一化,同一路径有利于集中权重,从我自身来说,可以保护个人隐私不至于被公开,例如:网站隐私、后台用户信息等。

    robots文件完整写法及注意事项

    一、学习robots文件编写,前提是得熟悉网站url和url的原理以及网站程序目录,为什么?很简单蜘蛛是通过url抓取的,文件具体形式,以阿里云主机根目录为例,格式表示如下:

    技巧:域名=根目录。

    /htdocs/=域名

    /htdocs/skin/=域名/skin/

    /htdocs/skin/css/=域名/skin/stivle.css/

    二、robots写法注意点:冒号后面有一个英文空格,必须全英文模式书写,字母大小写要注意,这是比较严谨的,需要特别注意。例如

    Disallow: /ab/abc/

    Allow: /ab/abc/

    User-agent: Baiduspider

    三、操作流程以及写法:桌面新建一个.txt文件,在文件上写robots规则。

    1:下面先来看看名词定义解释,不同的搜索引擎有不同的蜘蛛。

    【1】:User-Agent:对蜘蛛进行的规定(1)对百度蜘蛛的规定User-agent:  Baiduspider (2) 谷歌User-Agent:  Googlebot  (3)必应User-agent:Bingbot(4)360User-Agent:  360Spider(5)宜搜User-Agent:  Yisouspider(6)搜狗User-Agent:  Sogouspider  (7)雅虎User-Agent:  Yahoo!  Slurp

    User-Agent: *指对所有的蜘蛛

    【2】:Disallow:指禁止抓取。

    【3】:Allow:指允许抓取 。

    2:写法:以上三个格式综合使用,例如:我们要屏蔽/skin/文件夹里面的一部分文件,但是又希望抓取到/skin/文件夹里面的/css/文件夹,书写技巧:先禁止抓取/skin/文件夹,后面再允许抓取/css/ 文件夹就可以了。

    Disallow: /skin/表示禁止抓取/skin/文件夹

    Allow: /css/表示允许抓取/skin/文件夹里面的/css/文件夹

    注意点:前后都有斜杠表示文件夹。

    3:符号名词解释:

    (1)*通配符 :代表所有的,例如:

    User-Agent: * 就是表示对所有的蜘蛛

    Allow: /skin/*  表示允许包括/skin/文件夹以下的所以文件

    (2)$终止符:表示结束。例如不允许抓取.js结尾的文件,写成:Disallow: /*.js$

    四、常见屏蔽对象:

    1:中文的链接-路径,抓取不友好,或者我们不需要它来排名。例如屏蔽“联系我们”:Disallow: /lianxi/

    2:搜索结果页面,重复的质量低的。例如:

    http://www.xxxxx.com/course/search?key=%E5%BB%BA%E7%AD%91&cateKey=%E5%BB%BA%E7%AD%91

    http://www.xxxxx.com/course/search?key=%E4%BD%A0%E5%A5%BD&cateKey=%E4%BD%A0%E5%A5%BD

    技巧:先找到规律。假如我们不允许抓取以下的 ,写成:Disallow: /course/search?key=*

    3:动态路径,链接规律:?%/  等等 例如屏蔽带有?号的动态链接: Disallow: /*?*

    4:js文件的  Disallow: /*.js$  备注:官方的说法,关于js使用建议

    5:网站的目录:模板目录、插件目录、后台目录。。。。。。

    五、编写误区:

    区别性:例如

    Disallow: /ab=Disallow:  /ab*

    Disallow: /ab/ 前后有斜杠的/ab/代表单个文件夹

    Disallow: /ab  = Disallow: /*   斜杠代表了整个网站,范围更广。

    例:Disallow: /ab 这个规则对于以下两个链接都是屏蔽的:Disallow: /abc Disallow: /ab/123

    Disallow: /ab/ 这个规则,只对 Disallow: /ab/123 生效,对于Disallow: /abc是无效的。

    六、网站安全:Disallow: /dede 就知道网站是织梦做的,就会暴露网站程序。

    1:织梦后台是可以修改程序的,例:Disallow: /dede 把dede改成ffff 即:Disallow: /ffff

    2:wordpress 呢,例:Disallow: /wp_admin 修改成:Disallow: /*admin

    七、检测:写完robots文件后,记得检查文件是否正确。

    八、由于蜘蛛首先抓取的是robots文件,所以我们需要把我们网站地图写入到robots文件里面,方便蜘蛛更快抓取网站内容。

    robots.txt文件是个比较严谨,书写过程严格按照规则来,当然最重要的是写好之后要检查,以防书写错误,导致蜘蛛抓取不到。
    打赏
    X
    打赏方式:
    • 支付宝
    • 微信
    • QQ红包

    打开支付宝扫一扫
    日期:2018年01月31日 19:03:49 星期三   分类:好文分享   浏览(43237)
    本文地址:https://www.blogs.hk/post-3436.html   [百度已收录]
    声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
    版权所有:《博客之家
    文章标题:《robots文件完整写法及注意事项
    除非注明,文章均为 《博客之家》 原创
    转载请注明本文短网址:https://www.blogs.hk/post-3436.html  [生成短网址]

    留言咨询

    自动获取QQ

    昵称

    邮箱

    网址

        站点统计

        • 收录网址:3370 个
        • 发布文章:3008 条
        • 在线人数:1人
        • 总访问量:270581718次
        • 本站运行:12年5月3天
        Copyright © 2025 博客之家 版权所有  
        關於本站免責聲明sitemap新站登錄