'Baiduspider' Tag

百度蜘蛛也走后门

在百度普通的抓取蜘蛛( Baiduspider )之外,百度还放养着两类变异的蜘蛛,这两类变异蜘蛛一类称为 cpro,另一类叫做 sfkr,专爬百度的“关系户”。

  • Google 每天都会抓取一次 Robots.txt

    今天在 Google 帮助论坛上看到了一位 googler 说的关于 robots.txt 的事
    Google 通常每天都会来扫描一下 robots.txt
    这是印象中 Google员工第一次从官方层面进行表态说 蜘蛛通常每天会来访问robots.txt这个文件
    打个比方就 像每天吃饭一样,忽然一顿不吃或者一直没的吃 (饿死了?),对蜘蛛来说感觉是很不好的。
    robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。
    这里举一个robots.txt的例子:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~name/

    其中 User-agent 我知道的有 Baiduspider、Googlebot、msnbot、Yahoo、Sogou、YodaoBot、Sosospider。相信这些名字,大家一看就知道了。
    而最新的 Bing.com,据传用的也是 MSNbot,当然还会有一些分类,如 MSNBot-Media 负责图片,MSNBot-NewsBlogs 负责新闻和博客,MSNBot-Products 负责产品和购物车程序等等。
    详细的写法,你可以参考一下 Google,依样画一下葫芦:http://www.google.com/robots.txt
    本文首发搜索引擎营销观察,转载请注明。

     
    Powered by Wordpress. Design by Bingo - The Web Design Experts.