文章内容

2016/11/13 16:22:24,作 者: 黄兵

robots.txt文件解析

   Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
——360百科

    robots.txt文件防止搜索引擎抓取一些敏感页面,比如后台登录页面、未完成的页面以及一些其他的不想展现给浏览者的页面。

    那么怎么写这个页面呢?看一下我的网站robots.txt页面怎么写的:http://www.pdf-lib.org/robots.txt

  1. User-agent:搜索机器人名称;
  2. Disallow:禁止访问的页面。
  3. Disallow: / ,禁止任何蜘蛛访问页面。

注:robots.txt文件必须小写

分享到:

发表评论

评论列表