Google 每天都会抓取一次 Robots.txt

今天在 Google 帮助论坛上看到了一位 googler 说的关于 robots.txt 的事

Google 通常每天都会来扫描一下 robots.txt

这是印象中 Google员工第一次官方层面进行表态说 蜘蛛通常每天会来访问robots.txt这个文件

打个比方就 像每天吃饭一样,忽然一顿不吃或者一直没的吃 (饿死了?),对蜘蛛来说感觉是很不好的。

robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。

这里举一个robots.txt的例子:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

其中 User-agent 我知道的有 Baiduspider、Googlebot、msnbot、Yahoo、Sogou、YodaoBot、Sosospider。相信这些名字,大家一看就知道了。

而最新的 Bing.com,据传用的也是 MSNbot,当然还会有一些分类,如 MSNBot-Media 负责图片,MSNBot-NewsBlogs 负责新闻和博客,MSNBot-Products 负责产品和购物车程序等等。

详细的写法,你可以参考一下 Google,依样画一下葫芦:http://www.google.com/robots.txt

本文首发搜索引擎营销观察,转载请注明。

标签: , , , ,

相关文章

tags: , , , ,
posted in 原创, 搜索产业观察 by Kent

Follow comments via the RSS Feed | 留下评论 | Trackback URL

Leave Your Comment

 
Powered by Wordpress. Design by Bingo - The Web Design Experts.