Thursday, September 15, 2005

3.1 佩奇位阶

佩奇位阶《搜主义:GOOGLE持续成长的秘密》连载之十

砌一堵墙之前,我该问问清楚,圈在墙里边的和留在墙外边的都是些什么……

——罗伯特·弗洛斯特

在一个跟往常一样的工作日,Google的工程师克里什纳·巴拉特对搜索排行的词汇进行汇总。这时,他们发现前一天搜索排行的榜首是一个冷僻词条:卡罗尔·布雷迪的娘家。《布雷迪家庭》是美国20世纪70年代的情景喜剧,在此之前几乎名不见经传,人们为什么会突然对这一喜剧发生兴趣呢?

后来,克里什纳·巴拉特终于找到了原因。头一天晚上,在美国电视有奖竞猜节目谁想成为百万富翁中,最后一道决定百万美元归属的关键问题是:卡罗尔·布雷迪的娘家姓什么?节目主持人提出这个问题不过几秒钟,就有数以千计的人登录Google搜索答案。

有意思的是,这个条目的查询特征图依据时间推移相继出现了两个邻近高峰,很显然这是美国东西两岸的搜索统计。而相隔较远的地方出现了第三个比较小的峰值,是夏威夷的搜索统计。

你想知道问题的答案吗?那么请点击你的鼠标吧,每个人与任何问题的答案之间只有点击一下鼠标那么远。

Google通过这件事情告诉人们,人们的生活对Google是那么地依赖。在今天,Google已经成为一种文化现象,成为人们使用互联网的一种重要方式。许多人靠它掌握更多的信息,却也因此变得更懒。生活中的打赌,邻里的小争执,模糊的记忆,弹指间尘埃落定。俄罗斯总统普京生于何时和何处?姚明在哪一年登陆MBA并打第一场球?中巴足球对抗赛什么时候在电视上首播?

只要开启Google页面,敲入几个键,一张清晰、非常方便供以查询的网站清单就出来了,你可以一一点选去找答案。1995年的时候,有谁知道网络将在我们的私生活和工作上变得那么重要?甚至于去年有谁能够预见网络搜索引擎会变得那么重要?

对许多人来说,由于Google的存在,网际网络才真的变得十分实用和强大。我们可以不去看网易的新闻,可以不用MSN,也可以不安装QQ,但我们无法不用“Google”这本大百科全书。

Google之前,为什么未能出现成为人们首选的搜索引擎?它能在很短的时间内迅速窜起,成了世界上最多人爱用的搜索引擎,归根究底在于一个古老的原则:这家公司做出了更好的捕鼠器。

Google作为目前互联网上功能最强大的免费搜索引擎,其索引目录中储存有80多亿个网页及网页快照,10多亿张图片,用户可以使用100多种语言文字进行搜索。现在,Google平均每天接受的搜索次数为1.5亿人次,全球大约80%的搜索目标是通过Google来完成的。

由于远比以前的任何搜索引擎好用得多,事实上Google改变了许多人使用网络的方式。几乎一夜之间,它让网络变得实用许多,尤其是对非专家使用者而言,其中许多人现在把Google当作网际网络的前门。企图急起直追的微软公司CEO波尔默(Steven A. Ballmer)不得不承认:“Google证明了一个事实:更好的捕鼠器果然重要。

1998年诞生的Google,当然不是第一个搜索引擎。当时的其它搜索引擎,能够扫描或者抓取网络的一大部分信息、建立索引,然后找出符合特定字词的网页。

在当时,创立另一家网络搜索公司无疑引起了硅谷许多IT分析人士的嘲笑,因为许多人都认为网络搜索已经是一条死胡同。市场上已经有AltaVista、网景(Netscape),以及美国在线(AOL)的网络爬虫WebCrawler),更别提Lycos、雅虎(Yahoo!)和其它许多网站提供的搜索服务。

网络搜索引擎多如过江之鲫,可惜它们的搜索功能都是雷同的。它们在呈现搜索结果网页时,有时多达数十万条的条目,叫人从何看起?Google相信自己能够提供不同于它们的搜索。

Google从一开始,追求的就是一个完美的搜索引擎。佩奇和布林认为,所谓完美的搜索引擎,就是能跟你进行智能对话,能够丝毫不差地了解你的意思,同时丝毫不差地提供给你想要的东西。

这两位年轻人的成就,在于拒绝接受技术方面的限制,埋头持续努力创新,发展出佩奇位阶(Page Rank,也翻译为网页级别)技术。该运算法则是Google成功的核心,使其区别于以前所有的搜索引擎并赋予其从浩淼网络中为用户找出最有用网页的神奇能力。它决定哪些网页可能有你最想要的信息,并在搜索结果网页上根据相关性高低整理排序,从而改变了网络搜索的方式。

Google的搜索结果排列是依据其网页级别Page Rank)技术,即考察该页面在网上被链接的频率和重要性来排列的,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页 A 链接到网页 B 时,Google 就认为网页 A 投了网页 B 一票Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。重要的网页所投出的票就会有更高的权重,并且有助于提高其它网页的重要性

重要的、高质量的网页会获得较高的网页级别。Google 在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因此,Google 将网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。

Google 以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。虽然Google也在搜索结果旁刊登相关广告,但没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。

比如你想搜索贝克汉姆Google会搜索出所有涉及贝克汉姆的网站,然后将其中出现频率最高的网页列于首位。所以,Google的每一个搜索结果都是纯技术选择,是计算机程序按照点击率规则自动排列出来的。正是由于它的真实性和权威性,人们现在已经习惯于通过一家公司、一种商品在Google上的位置和查询结果数量来判断其知名度和重要性,这就是所谓的Google指数。有人评论说:由于Google的举足轻重,它能决定网上行销企业的成败。地段的选择历来是零售商的头等大事。而对于网上零售商而言,角逐Google排名无异于争夺黄金地段。因此,Google公司每周平均会收到一万封电子邮件,询问的都是同一个问题:如何才能让我们的公司在Google上的排名上升?

佩奇和布林早期还有一项叫“anchor text(锚文本作为页面价值评估参数)的重要发明。锚文本一般以蓝色字体显示并以下划线标示,构成网页之间的链接文字。两位创始人均认为锚文本对链接页面提供了极为精炼的内容描述。此外,当用户使用人名或公司名称搜索时,锚文本的使用还可有效确保最佳网站能够出现在搜索结果的顶部。

事实上,Google采用的是被称为线性代数的一项数学分支成熟技术,从而一步完成计算程序。(PageRank实际运算公式仍存在于斯坦福大学的网页(Stanford web page)上,其中还包括到一项额外的避免网页分值持续上升的递减因数。)

另外,佩奇位阶一直被不断修改,避免人们将此套系统用作他途。现在,网页在Google搜索结果的排名逐渐被人们所重视,尤其对于依靠搜索引擎吸引潜在客户的商家来说更加重要。于是,SEO(搜索引擎优化)技术应运而生,它可以提高网页在Google及其它搜索引擎上的排名。Google原始的运算法则被按照一种简单直接的模式操作,通过建立网页链接工场增加目标网页的导入链接数量,从而夸大该网页的重要性。比如搜索优化公司可以拥有许多网站,在这些网站上链接某一个网站等。于是,Google对佩奇位阶作了修改,最初的排名原则已经逐渐被复杂化,目前已经能够识别并把那些作弊网页记录下来。

Google发展出来的这套演算式,产生了其竞争对手难以望其项背的竞争优势,在搜索技术领域构成很高的进入障碍Entry Barrier)。Google专有的佩奇位阶,以客观的方式衡量网页的相关性和重要性时,必须运用的公式中含有5亿多个变量和20亿个词汇。

在这个演算过程中,没有人为介入或者操纵。Google表示,它的使命是世界所有信息的有效组织者,佩奇位阶为Google实现了初步的理想。

此文转载自清华大学出版社新书《搜主义:GOOGLE持续成长的秘密》连载之十 张远昌/著


搜主义:GOOGLE持续成长的秘密》连载之十一