robots内容详细解读
  robots.txt是纯文本文件,用于声明网站中不想被蜘蛛抓取的部分,robots不是一个规定,是一种约束。
  蜘蛛访问网站的时候首先查看的是robots:如果存在就按照robots规则抓取、如果不存在蜘蛛就沿着链接直接爬行。
  1.robots作用
  1.1、防止私密或重要的内容被搜索引擎抓取
  1.2、节省服务器资源
  1.3、减少重复抓取,提高网站质量
  1.4、制定sitemap文件位置
  2.写法
  该文件放置在文件的根目录下:/robots.txt
  3.语法
  3.1、User-agent:
  3.1.1、指定哪个搜索引擎蜘蛛:Baiduspider()、Googlebot(谷歌)、Sogouspider(搜狗)
  3.1.2、*代码所有搜索引擎
  3.2、Allow:表示允许蜘蛛抓取的栏目或文件
  3.2.1、Allow:/web/ 表示允许访问web目录
  3.2.2、Allow:/*.htm$ 表示允许访问html文件
  3.3、Disallow:禁止抓取栏目或文件
  Disallow:/web/:禁止抓取web目录
  Disallow:/*.htm$:禁止抓取html文件
  Disallow:/ 禁止抓取网站所有内容:
  /表示根目录
  SEO优化_robots设置详细解读
  4.工具:
  tool.chinaz.com/robots
  5.问题
  5.1、如果搜索引擎已经收录了你的网页,这时候你不想让搜索引擎收录网页 咋办?
  5.2、robots是不能删除搜索引擎中已经收录的页面
  5.3、robots meta标签来解决该问题
  6.robots meta标签:针对具体的页面
  6.1、语法
  6.1.1、<meta name='robots' content='index,follow'/>(<meta name='robots' content='all'/>):允许搜索引擎抓取页面与页面的链接
  <meta name='robots' content='noindex,follow'/>:不允许搜索引擎抓取页面与允许页面的链接
  <meta name='robots' content='index,nofollow'/>:允许搜索引擎抓取页面与不允许页面的链接
  <meta name='robots' content='noindex,nofollow'/>(<meta name='robots' content='none'/>):不允许搜索引擎抓取页面与不允许页面的链接
  7.解释
  index:表示搜索引擎可以抓取该页面
  noindex:表示搜索引擎不可以抓取该页面
  follow:表示搜索引擎蜘蛛可以爬寻该页面的上的链接
  nofollow:表示搜索引擎蜘蛛不可以爬寻该页面的上的链接
  提醒:有些时候也友情链接交换可能会被加上nofollow,大家可以查看一下(避免灰帽)