当前位置:首页 » 好文分享 » 详情

    网站robots文件规则及其设置

    在上一篇《学会这几招!新站不收录都难》给大家分享了关于新站不收录问题,在网站优化中robots.txt文件的编写可以说直接影响SEO优化效果,俗话说,细节决定成败,robot.txt到底要怎么写呢?今天博客之家给大家详细讲解下“网站robots.txt文件规则及其设置”;

    一、robots.txt文件是什么

    robots.txt文件简单理解为就是告诉搜索引擎蜘蛛,我们的网站上哪些内容可以被抓取,哪些不能抓取。当搜索引擎蜘蛛访问我们网站时,第一件事就是检查网站根目录是否存在robots.txt文件,如果存在则会遵守robots.txt文件所编写的规则抓取相应的内容;

    例如本站的robots.txt文件规则:
    #
    # robots.txt for www.blogs.hk
    #
    
    User-agent: *
    Disallow: /admin/
    Disallow: /content/
    Disallow: /include/
    Disallow: /go/
    Disallow: /m/
    Disallow: /t/
    Disallow: /*?*
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.css$
    Sitemap: https://www.blogs.hk/sitemap.xml

    腾讯网robots.txt文件规则:
    User-agent: *
    
    Disallow: 
    
    Sitemap: http://www.qq.com/sitemap_index.xml

    二、robots.txt文件作用
        
    为什么网站都要写robots.txt文件呢?主要有以下四点:

    1、网站安全(防止重要信息泄露)

    2、节省网站流量(减少蜘蛛访问页面)

    3、引导蜘蛛爬取网站地图(有利于网站收录)

    4、禁止搜索引擎蜘蛛收录隐私页面(保护网站重要信息)

    三、robots.txt文件写法

    “/” 前面有一个英文状态下空格;

    Disallow: /禁止访问

    例如:”Disallow:/plus/ad_js.php”禁止访问/plus/as_js.php文件,”Disallow:/a/”,”Disallow:/b/”禁止访问a,b文件。

    Allow: /允许访问

    User-agent: /描述搜索引擎robots的名字

    我们知道搜索引擎爬虫有多个种类,Baiduspider、Googlebot、360spider、Sosospider等等。

    例如:User-agent: Baiduspider表示定义百度蜘蛛,那么名为”Baiduspider”就受到 ” User-agent: Baiduspider”后面的Disallow和Allow的规则限制。”User-a
    gent: *”表示定义所有蜘蛛。

    例如本站robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问,且禁止抓取”Disallow: /”下文件。

    腾讯网robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问所有文件。

    四、robots.txt文件存在位置
        
    存放在网站根目录下,并且robots.txt文件名所有字母必须为小写。

    五、注意事项
        
    在编写robots.txt文件时,User-agent、Disallow、Allow第一个字母均为大写,后面的字母小写,并且在 ”:”后面必须带一个英文字符空格,网站上线之前建议写好robots.txt文件禁止蜘蛛访问,如果还不会写可以参考网上robots.txt写法,以免给网站收录带来不必要的麻烦。

    总结:以上就是博客之家分享的个人经验,如果你还不会robots.txt文件写法,可以联系刘海帮忙解决!
    打赏
    X
    打赏方式:
    • 支付宝
    • 微信
    • QQ红包

    打开支付宝扫一扫
    日期:2018年01月14日 22:32:06 星期日   分类:好文分享   浏览(37138)   评论(1)
    本文地址:https://www.blogs.hk/post-3245.html   [百度已收录]
    声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
    版权所有:《博客之家
    文章标题:《网站robots文件规则及其设置
    除非注明,文章均为 《博客之家》 原创
    转载请注明本文短网址:https://www.blogs.hk/post-3245.html  [生成短网址]

    留言咨询

    自动获取QQ

    昵称

    邮箱

    网址

        站点统计

        • 收录网址:3370 个
        • 发布文章:3008 条
        • 在线人数:1人
        • 总访问量:270519478次
        • 本站运行:12年5月3天
        Copyright © 2025 博客之家 版权所有  
        關於本站免責聲明sitemap新站登錄