在百度普通的抓取蜘蛛( Baiduspider )之外,百度还放养着两类变异的蜘蛛,这两类变异蜘蛛一类称为 cpro,另一类叫做 sfkr,专爬百度的“关系户”。
今天在 Google 帮助论坛上看到了一位 googler 说的关于 robots.txt 的事
Google 通常每天都会来扫描一下 robots.txt
这是印象中 Google员工第一次从官方层面进行表态说 蜘蛛通常每天会来访问robots.txt这个文件
打个比方就 像每天吃饭一样,忽然一顿不吃或者一直没的吃 (饿死了?),对蜘蛛来说感觉是很不好的。
robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。
这里举一个robots.txt的例子:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
其中 User-agent 我知道的有 Baiduspider、Googlebot、msnbot、Yahoo、Sogou、YodaoBot、Sosospider。相信这些名字,大家一看就知道了。
而最新的 Bing.com,据传用的也是 MSNbot,当然还会有一些分类,如 MSNBot-Media 负责图片,MSNBot-NewsBlogs 负责新闻和博客,MSNBot-Products 负责产品和购物车程序等等。
详细的写法,你可以参考一下 Google,依样画一下葫芦:http://www.google.com/robots.txt
本文首发搜索引擎营销观察,转载请注明。