关注联楷|返回首页 | 网站案例 | 帮助中心

合作共赢、快速高效、优质的网站建设提供商

上海网站建设 

服务热线:021-61394118

上海联楷科技

了解网站推广robots协议详解 robots.txt

作者:佚名   时间:2015-09-26   分享到:

robots协议的正确设置,是影响网站效果的第一步。先了解下obots协议也就是robots.txt,网站通过robots协议准确告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。

 

先讲一下搜索引擎即我们俗称的爬虫或蜘蛛的简单工作流程:

1 我们发布的网站,都有一堆url;

2 蜘蛛抓取这些url并解析网页,抽取其中的超级链接;

3 蜘蛛接着抓取新发现新的网页;

4 以上循环往复。

robots协议就是用来告诉搜索引擎哪些网页页面可以被抓取,哪些网页不能抓取。

robots协议的写法规范:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /xx/ 禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/*.htm 禁止访问/xx/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/xx/xx.html 禁止抓取xx文件夹下面的xx.html文件。

Allow: /xx/ 这里定义是允许抓取xx目录下面的目录

Allow: /xx 这里定义是允许抓取xx的整个目录

Allow: .htm$ 仅允许抓取以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

 

用法一:

禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

用法二:

允许所有的robot访问

User-agent: *

Allow: /



如没特殊注明,文章均为上海联楷网络原创,转载请注明来自:http://www.linksj.com/quote/20151216/n5388.html

上海联楷网络新闻