robots.txt文件解析-详细内容 - 黄兵的个人博客

文章内容

2016/11/13 16:22:24,作者: 黄兵

robots.txt文件解析

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，而不是作为搜索引擎之间互相限制和不正当竞争的工具。
——360百科
robots.txt文件防止搜索引擎抓取一些敏感页面，比如后台登录页面、未完成的页面以及一些其他的不想展现给浏览者的页面。
那么怎么写这个页面呢？看一下我的网站robots.txt页面怎么写的：http://www.pdf-lib.org/robots.txt
User-agent：搜索机器人名称；
Disallow:禁止访问的页面。
Disallow: / ，禁止任何蜘蛛访问页面。
注：robots.txt文件必须小写。

上一篇：asp.net mvc 错误处理
下一篇：Leverage browser caching 设置浏览器缓存加速网站

分享到：

发表评论

评论列表

搜索文章

文章归档