今天在 Google 帮助论坛上看到了一位 googler 说的关于 robots.txt 的事
Google 通常每天都会来扫描一下 robots.txt
这是印象中 Google员工第一次从官方层面进行表态说 蜘蛛通常每天会来访问robots.txt这个文件
打个比方就 像每天吃饭一样,忽然一顿不吃或者一直没的吃 (饿死了?),对蜘蛛来说感觉是很不好的。
robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。
这里举一个robots.txt的例子:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~name/
其中 User-agent 我知道的有 Baiduspider、Googlebot、msnbot、Yahoo、Sogou、YodaoBot、Sosospider。相信这些名字,大家一看就知道了。
而最新的 Bing.com,据传用的也是 MSNbot,当然还会有一些分类,如 MSNBot-Media 负责图片,MSNBot-NewsBlogs 负责新闻和博客,MSNBot-Products 负责产品和购物车程序等等。
详细的写法,你可以参考一下 Google,依样画一下葫芦:http://www.google.com/robots.txt
本文首发搜索引擎营销观察,转载请注明。
标签: Baiduspider, Google, Googlebot, robots, robots.txt