Robots协议有什么作用?如何制作网站robots文件?
很多网站都会设置robots.txt文件,这是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件。Robots协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。
为什么要设置robots协议
1、出于隐私保护的目的,这个网站的内容不希望被搜索引擎爬取
2、处于商业竞争的保护,不能让搜索引擎爬取
3、处于网站优化目的屏蔽网站的死链接
4、减轻网站的流量负荷,不希望被某些搜索引擎爬取
Robots文件编写时注意事项
1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。
以北京优立方网站seo优化公司为例:比如通过http://www.seo3.cn/robots.txt 蜘蛛就可以访问北京优立方的robots.txt文件了。
2、robots.txt 文件名命名必须小写,记得在robot面加“s”。
3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。
4、路径后面加斜杠“/” 和不加斜杠的是有区别的
不带/斜杠的意思是:屏蔽admin这个名字开头的所有目录。如:/admin1、/admin2、/admina或者/admin/以下的所有目录都是被屏蔽的。
带/斜杠的意思是:屏蔽/admin/这个目录下的所以内容。如:/admin/abc、/admin/gsd/或者是/admin/4gy6/1df等,/admin/以下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/admin还是允许蜘蛛抓取的。
如何查看网站robots文件
很简单,在网站的根目录域名后加上/robots.txt就可以了。
常见的搜索引擎爬虫有:
谷歌 Googlebot
百度 Baiduspider
360 360Spider
必应 bingbot
Robots文件生成工具:
站长工具中的robots生成工具:http://tool.chinaz.com/robots/
使用方法:在限制目录里填写不想让搜索引擎抓取的文件名,如果有sitemap填写sitemap地址。再设置禁止哪些搜索引擎抓取,点击生成即可。
网站设置robots文件可以大大的增强蜘蛛网站的爬取效率,帮助搜索引擎理解哪些才是网站最重要的内容,不再浪费到其它的那些无用的页面上。可以制止不必要的搜索引擎占用服务器的宝贵带宽,对于SEO优化来说有着非常重要的意义,一定要重视起来。