近来搜索行业有个比较热门的词是“实时搜索”。 虽然“实时”这个词本身有点用词不当────对于搜索引擎来说根本没有真正的“实时”可言,做到实时是不可能的(即使 Twitter 的间隔更新搜索也算不上是“实时”),但无论如何,“实时搜索”是一个新领域,这无疑会影响到搜索引擎优化(SEO)工作效果。
让我们先看看那些被称冠以“实时”之名的搜索引擎吧,其实他们只是搜索社会化媒体里的内容,而并没有真正抓取页面,索引页面。 不进行页面抓取和页面索引的搜索引擎算是搜索引擎吗? 或者只是单纯能称为闲谈讨论监测工具?
一组测试数据也许可以回到这个问题(One Riot, Scoopler 和 Collecta 是三款实时搜索引擎)
One Riot ——One Riot 自诩超越 Google 的 PageRank 的 PulseRank 就在这一应用中。 我们早期测试显示它不如 Collecta, 但在这次测试中 One Riot 表现得相对还不错。
测试时间:49 分钟 —— 这个收录只是发生在订阅了我博客的 RSS 并连接到 Twitter 帐户的订阅者在 twitter 里“推”了我的博客之后。 有趣的是,One Riot 是第一个列出实际博客内容得,而不是 Tweets。

Scoopler – 这个也是依赖于 Twitter 的,但它确实抓到了列出了博客内容的最热门链接。这是一个很棒的功能,再社会化媒体搜索里这是我最喜欢的。
测试时间:48 分钟。如上面所述,这显然不是“实时”,也真的只有社会化媒体里的内容 。尽管实际使用体验还不错。

Collecta ——测试时间: 49 分钟 ——这是另一个主要由 Twitter 提供结果的,尽管也有一些博客搜索结果(从他们声明的记录可见:“我们从网上大量收录信息,不只是从社会网络。)。虽然这可能是真实的,但似乎很多还是“实时”的社会网络信息。

Google ——测试时间: 3 小时 15 分 —— 在三大巨头里只有 Google 事实上收录了发布的内容。当然,它没有社会化媒体引擎那么快,但我得说,从它更复杂的排名方法,和更有质量的搜索结果来看,3 小时已经很不错了。显然,如果文章是在更热门的抓取频率更高得站点则会收录更快。

Google 博客搜索 —— 测试时间:15 小时—— 很奇怪,博客搜索用了相当长的时间索引页面。不过,分类/排名功能使之成为了一个更实用搜索引擎。我会做用一些更受欢迎的博客多做一些测试,看看在此时间框架内短的搜索时间是怎样的。

Yahoo —— 测试时间:19 小时 —— Yahoo 不仅是慢, 还没能搜到正确的页面,从我的侧栏里抓了标题而不是从实际页面…. 必须得给它个“失败”。

Bing —— 测试时间:23 小时—— 和 Yahoo 差不多, 它不仅要很长时间索引,还从侧栏链接里抓了错误得页面。 也是“失败”。

事实上,实时搜索在技术上相当难以实现,搜索引擎大部分的工作都是在建立权威的排名答案,这需要对大量的信息垃圾进行处理,而对信息垃圾的处理需要大量的参考数据,这些参考数据的获取是很难做到 “实时”的 。你可以反过来这么想,如果“实时”搜索确实是一种有效的方法,Google 和其他搜索引擎提供商可能早已经这么做了。
实时搜索的几个不可能:
- 信息垃圾(Spam) ——对于任何搜索引擎来说这都是最棘手的部分。要在大规模环境里打击网络垃圾信息几乎是不可能完成的任务。 这就是为什么大多数主流搜索引擎在做到“几乎实时”之后不能更进一步的原因。(几乎实时 :如谷歌的 QDF – query deserves freshness 的办法。)
- 排名——与 QDF( query deserves freshness )一样 ,搜索排名的产生,是一个金字塔结构的模型,更新越频繁、反向链接越多、越重要的网页,排名就越靠前。但是在社会化网络中,搜索引擎的这一特点就会产生很 多问题,比如,如何让搜索结果更为民主?难道要让 Twitter 上火的人越来越火,而新人永远只能垫底吗?
- 依赖社会化媒体 —— 大多数实时引擎是依赖于社会化媒体的信息,这点确实限制了其作为一个搜索引擎的实际能力,他们并没有索引的网页,尽管普遍认为并非所有网络上的内容都是社会价值的,但依赖于社会化媒体使这种搜索引擎的使用范围会很有限。
实时引擎目前的情况无疑是针对社会化媒体的。 在大多数情况下这些只不过是社会化媒体内容的回流,由于没有任何形式的正式抓取或索引,也就涉及不到实时搜索引擎是什么或做什么……这个大多数时候所谓的 实时搜索基本也就是这样了,没有什么内容关于实时指数和排名,因为它们是只是关于社会媒体里内容的监测,或者说美化了的 Twitter 的搜索应用。
目前 Google, Yahoo 还有 Bing,似乎也看到了社会结构方面的影响。Google 的系统里有一些专利被称为 “ FriendRank ” 和 “ InfluencerRank ” ,其中可能暗示社会结构和排名系统。 了解更多在这里。微软也有一个相关的系统。( 看这里 )搜索引擎可能将其与传统搜索方式联合使用,开发出“社会搜索” 方面的产品,这似乎是合乎逻辑的。
从现状来看,实时搜索在技术和临界质量上的问题还没能够有效解决。 因此,对于任何 SEO 工作来说它不会是一个需要认真考虑的内容,除了它在信息监测方面的潜力。在许多方面这些仅仅只是依传统称之为搜索引擎。 如果有创新的公司可以打开这一领域的缺口,但也还有许多工作需要做(尤其是信息垃圾的处理) 。
所以,SEO 是否需要担心实时? 现在还没必要…… 在一个真正的搜索引擎(能带动流量的)走上“实时”的冒险之路之前,SEO 都应该对此谨慎观察。
为什么文章后面不留写作时间呢?看的时候都没有时间感……
Like or Dislike:
0
0
@小飞, 说得也是,才发现进入某篇文章的页面后,原来左侧的时间信息就没有了。
Like or Dislike:
0
0
实时搜索更新很快,适合时效性比较高的网站做seo
Like or Dislike:
0
0