当前位置:首页 » 好文分享 » 详情

    robots史上最详尽、最易懂说明及写法

    robots介绍:

    很多做优化的忽略robots的重要性,我们首先要记住的就是蜘蛛来到网站之后第一个看的就是robots文件,它是搜索引擎的协定,告诉蜘蛛哪些能抓,哪些不能抓,哪些目录下的哪些文件可以抓,这些robots文件都可以实现。优化时候忽略了robots文件的重要性,可能会一不小心被网站编程人员给自己埋了一个坑。

    robots规则说明:

    *代表所有的意思

    User-agent

    爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:* 如果单独适用于百度的话User-agent:Baiduspider

     (附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛:360Spider|SOSO蜘蛛:Sosospider|雅虎蜘蛛:Yahoo!|有道蜘蛛:YoudaoBot|搜狗蜘蛛:Sogou News Spider|MSN蜘蛛:msnbot/msnbot-media|必应蜘蛛:bingbot/compatible|一搜蜘蛛:YisouSpider|Alexa蜘蛛:ia_archiver|宜sou蜘蛛:EasouSpider|即刻蜘蛛:JikeSpider|一淘网蜘蛛:EtaoSpider)

    DisallowDisallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系

    Disallow:/(代表着禁止抓取网站所有内容)

    Disallow:/abc(禁止抓取abc及其层次下的内容)

    Disallow:/abc/(禁止抓取abc层次下的内容,但是允许抓abc)

    Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT) 

    Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是) 

    Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以) 

    Disallow:/abc/*?*(只屏蔽abc层次下的动态地址) 

    Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容) 

    Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)

    其他的按照这个思路灵活使用就行了

    Allow

    Allow代表允许访问抓取的意思

    Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:

    Allow:/abc

    disallow:/*?* 

    其他的写法参考disallow的逻辑

    sitemap

    这个只用于告诉蜘蛛网站地图在哪

    sitemap:网址/sitemap.xml 

    Crawl-delay

    控制抓取频次,一般有些搜索蜘蛛频繁抓取网站,会对服务器造成很大的负担,这个就是用来控制抓取频次的

    User-agent:360Spider

    Crawl-delay:10

    这句是说,360你抓的太频繁,你抓过之后10秒之后才能下一次抓取

    还有就是不让显示快照:

    在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)

    在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“360Spider” content=“noarchive”(禁止360产生快照,name后面的换成蜘蛛名字即可)
    打赏
    X
    打赏方式:
    • 支付宝
    • 微信
    • QQ红包

    打开支付宝扫一扫
    日期:2017年12月25日 11:42:27 星期一   分类:好文分享   浏览(33445)
    本文地址:https://www.blogs.hk/post-3062.html   [百度已收录]
    声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
    版权所有:《博客之家
    文章标题:《robots史上最详尽、最易懂说明及写法
    除非注明,文章均为 《博客之家》 原创
    转载请注明本文短网址:https://www.blogs.hk/post-3062.html  [生成短网址]

    留言咨询

    自动获取QQ

    昵称

    邮箱

    网址

        站点统计

        • 收录网址:3370 个
        • 发布文章:3008 条
        • 在线人数:1人
        • 总访问量:270574381次
        • 本站运行:12年5月3天
        Copyright © 2025 博客之家 版权所有  
        關於本站免責聲明sitemap新站登錄