Robots文件需要屏蔽哪些目录?
网站模板目录
如上面 图像目录 中所说,cms的强大和灵敏,也致使了许多同质化的网站模板的呈现和乱用,高度的重复性模板在查找引擎中形成了一种冗余,且模板文件常常与生成文件高度类似,相同易形成相同内容的呈现。对查找引擎很不友爱,严峻的直接被查找引擎打入冷宫,不得翻身,许多cms有具有独立的模板寄存目录,因而,大概进行模板目录的屏蔽。一般模板目录的文件目录是:templets
被删去的目录
死链过多,对查找引擎优化来说,是丧命的。不能不导致站长的高度注重,。在网站的开展过程中,目录的删去和调整是不可避免的,若是你的网站当时目录不存在了,那有必要对此目录进行robots屏蔽,并回来正确的404过错页面。
/data/系统数据文件,可以屏蔽;
/img/或/images/,如果你不是做的图片站,也可以屏蔽;
/bin/系统文件可以屏蔽;
/install/安装文件可以屏蔽;
/member/有会员的可以屏蔽;
/logreport/有统计报告的可以屏蔽;
/bjk/有加密的文件,可以屏蔽;
/js/,/css/可以屏蔽,留着是为了让蜘蛛更好地了解网站结构,资源少的情况下,可以屏蔽。
屏蔽双页面的内容
这里拿DEDECMS来举例吧。大家都知道DEDECMS可以使用静态和动态URL进行同一篇内容的访问,如果你生成全站静态了,那你必须屏蔽动态地址的URL链接。这里有两个好处:1、搜索引擎对静态的URL比动态的URL更友好、更容易收录;2、防止静态、动态URL能访问同一篇文章而被搜索引擎判为重复内容。这样做对搜索引擎友好性来说是有益无害的。
robots.txt文件用法举例:
- 禁止所有搜索引擎访问网站的任何部分 下载该robots.txt文件 User-agent: * Disallow: /
- 例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) User-agent:*Disallow:
例4. 允许某个搜索引擎的访问 User-agent: baiduspiderDisallow: User-agent: *Disallow: /