1 、Fetch as Googlebot 这是两个月前更新在网站管理员工具
Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。
2、安装 Firefox 扩展插件,名字叫 User Agent Switcher
这个 User Agent Switcher 可以模仿 IE6、IE7、IE8、Googlebot、Msnbot、Yahoo Slurp、iPhone 3.0,同时这个扩展插件还可以自定义机器人,添加或者删除,如图。
再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,自己添加和修改机器人,应该还包括不少google的服务器IP资源
3、安装 SEOBOOK 为 SEOer 量身定做的工具条
SEOBOOK 里面也有 User Agent 切换功能,不光是 Googlebot、MSN bot、Yahoo Slurp,还有其他浏览器的IE、 Netscape、Opera 等。
如图
4、修改注册表(只限于IE,不推荐)
将下面代码另存为:Useragent.reg,然后确认就可以使用了。
Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”
为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为
Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User [...]
Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。
而在这个 Labs 功能下面还有一个查看恶意软件的细节功能,自动侦测。
Fetch as Googlebot
在这个功能下,你可以查看任何你自己站点页面代码,通过 Google 机器人的视角,好好的审视自己的站点。操作过程很简单,只要点击 Labs 打开功能,点击 Fetch 按钮查看,等待 Google 机器人的处理,几秒钟后,再刷新一下就可以看到结果了。
有朋友奇怪了,这和我们平时看网页的源代码有什么不同呢? 为什么要麻烦蜘蛛再来一次,而且必须在网站管理员工具中查看
首先你可以看到 Http 的头信息,这个信息可以通过 Live HTTP Headers 等工具查看到,但是直接查看源代码是看不到的,见上图中最顶部,相当于有个小探针,帮你查看更多的服务器信息和其他相关信息。
其次你可以比较蜘蛛看到的信息和人看到的信息有什么不同。这个工具用的是和 Google 抓取网页的那个 Googlebot 及其人一样的IP,一样的方式,一样的 user-agent,如果你在不知情的情况下被人进行了代码修改,在蜘蛛下和人为下看到的代码不一样(英文叫 clocking),就可以靠这个工具来检查了。
还有你可以用这个工具测试一些变化,比如重定向。
在这个工具中你还能发现一些额外的东西,比如 javascript 能被 googlebot 抓取
我没有 flash 站,有的朋友也可以看看 flash 在 Googlebot 中是什么样子的。
目前测试发现 Google 机器人只能抓取前 100000 字节的内容,有人就会觉得网页文件最好不要超过这个大小,还有人说做链接不要放在底部。其实这个没关系,这个只是工具的作用,跟真实的 Googlebot 机器人还是有一定差距,你看看新浪的首页,肯定不止 100KB。
小知识:什么是 Cloaking?
通常是说在 Web 服务器上使用一定的手段,对搜索引擎中的巡回机器人显示出与普通阅览者不同内容的网页。
现象 1:为了提高在搜索引擎中的名次,不自然地大量向网页中输入关键字,使其不展现给普通用户,单是选择性地发给搜索引擎的一种手法。
现象 [...]
今天在 Google 帮助论坛上看到了一位 googler 说的关于 robots.txt 的事
Google 通常每天都会来扫描一下 robots.txt
这是印象中 Google员工第一次从官方层面进行表态说 蜘蛛通常每天会来访问robots.txt这个文件
打个比方就 像每天吃饭一样,忽然一顿不吃或者一直没的吃 (饿死了?),对蜘蛛来说感觉是很不好的。
robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。
这里举一个robots.txt的例子:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
其中 User-agent 我知道的有 Baiduspider、Googlebot、msnbot、Yahoo、Sogou、YodaoBot、Sosospider。相信这些名字,大家一看就知道了。
而最新的 Bing.com,据传用的也是 MSNbot,当然还会有一些分类,如 MSNBot-Media 负责图片,MSNBot-NewsBlogs 负责新闻和博客,MSNBot-Products 负责产品和购物车程序等等。
详细的写法,你可以参考一下 Google,依样画一下葫芦:http://www.google.com/robots.txt
本文首发搜索引擎营销观察,转载请注明。