1 robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。

2 WordPress类型站的robots.txt参考

新建robots.txt文件,设置为UTF-8编码,并往该文件中添加以下内容:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback
Disallow: /comments
Sitemap: http://stubbornhuang.com/sitemap.xml
Sitemap: http://stubbornhuang.com/sitemap.xml

各个参数含义如下:

  • User-agent: * :允许博客被所有引擎收录。
  • Disallow: /cgi-bin
  • Disallow: /wp-:不允许蜘蛛访问cgi-bin文件夹以及wp开头的文件,这主要是为了博客的安全。
  • Disallow: /feed/
  • Disallow: /comments/feed:不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。事实上,在禁用了feed文件之后,我的博客来自百度的流量由之前的几乎为0增长到现在的每天300-500IP。
  • Disallow: /trackback
  • Disallow: /comments:禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。
  • Sitemap:表明站点地图文件路径。