网站robots文件规则及其设置

当前位置：首页 » 好文分享 » 详情

网站robots文件规则及其设置

在上一篇《学会这几招！新站不收录都难》给大家分享了关于新站不收录问题，在网站优化中robots.txt文件的编写可以说直接影响SEO优化效果，俗话说，细节决定成败，robot.txt到底要怎么写呢？今天博客之家给大家详细讲解下“网站robots.txt文件规则及其设置”;

一、robots.txt文件是什么

robots.txt文件简单理解为就是告诉搜索引擎蜘蛛，我们的网站上哪些内容可以被抓取，哪些不能抓取。当搜索引擎蜘蛛访问我们网站时，第一件事就是检查网站根目录是否存在robots.txt文件，如果存在则会遵守robots.txt文件所编写的规则抓取相应的内容;

例如本站的robots.txt文件规则：

#
# robots.txt for www.blogs.hk
#

User-agent: *
Disallow: /admin/
Disallow: /content/
Disallow: /include/
Disallow: /go/
Disallow: /m/
Disallow: /t/
Disallow: /*?*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://www.blogs.hk/sitemap.xml

腾讯网robots.txt文件规则：

User-agent: *

Disallow: 

Sitemap: http://www.qq.com/sitemap_index.xml

二、robots.txt文件作用

为什么网站都要写robots.txt文件呢？主要有以下四点:

1、网站安全(防止重要信息泄露)

2、节省网站流量(减少蜘蛛访问页面)

3、引导蜘蛛爬取网站地图(有利于网站收录)

4、禁止搜索引擎蜘蛛收录隐私页面(保护网站重要信息)

三、robots.txt文件写法

“/” 前面有一个英文状态下空格;

Disallow: /禁止访问

例如:”Disallow:/plus/ad_js.php”禁止访问/plus/as_js.php文件，”Disallow:/a/”，”Disallow:/b/”禁止访问a,b文件。

Allow: /允许访问

User-agent: /描述搜索引擎robots的名字

我们知道搜索引擎爬虫有多个种类，Baiduspider、Googlebot、360spider、Sosospider等等。

例如:User-agent: Baiduspider表示定义百度蜘蛛，那么名为”Baiduspider”就受到 ” User-agent: Baiduspider”后面的Disallow和Allow的规则限制。”User-a
gent: *”表示定义所有蜘蛛。

例如本站robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问，且禁止抓取”Disallow: /”下文件。

腾讯网robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问所有文件。

四、robots.txt文件存在位置

存放在网站根目录下，并且robots.txt文件名所有字母必须为小写。

五、注意事项

在编写robots.txt文件时，User-agent、Disallow、Allow第一个字母均为大写，后面的字母小写，并且在 ”:”后面必须带一个英文字符空格，网站上线之前建议写好robots.txt文件禁止蜘蛛访问，如果还不会写可以参考网上robots.txt写法，以免给网站收录带来不必要的麻烦。

总结：以上就是博客之家分享的个人经验，如果你还不会robots.txt文件写法，可以联系刘海帮忙解决！

打赏

打赏方式：

支付宝
微信
QQ红包

打开支付宝扫一扫

日期：2018年01月14日 22:32:06 星期日分类：好文分享浏览(37138) 评论(1)
本文地址：https://www.blogs.hk/post-3245.html [百度已收录]
声明：本页信息由网友自行发布或来源于网络，真实性、合法性由发布人负责，请仔细甄别！本站只为传递信息，我们不做任何双方证明，也不承担任何法律责任。文章内容若侵犯你的权益，请联系本站删除！

上一篇：SEO优化之付出不亚于任何人的努力
下一篇：学会这几招！新站不收录都难

留言咨询

随机文章

站点统计

收录网址：3370 个
发布文章：3008 条
在线人数：1人
总访问量：270519478次
本站运行：12年5月3天