行业知识
PR 是 PageRank 的缩写。Google PR 理论是所有基于链接的搜索引擎理论中最有名的。 SEO 人员可能不清楚本节介绍的其他链接理论,但不可能不知道 PR。
PR 是 Google 创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最间的话说就是,反向链接越多的页面就是越重要的页面,因此 PR 值也就越高。
Google PR 有点类似于科技文献中互相引用的概念,被其他文献引用较多的文能,很可能是比较重要的文献。
1.PR 的概念和计算
我们可以把互联网理解为由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的 PR 值决定于链接所在页面的P值,发出链接的页面本身 PR 值越高,所能传递出去的 PR 也越高。传递的 PR 值也取获于页面上的导出链接数目。对于给定 PR 值的页面来说,假设能传递到下级页面 100份 PR,页面上有10 个导出链接,每个链接能传递 10 份 PR,页面上有 20 个导出链接的话每个链接只能传递 5 份 PR。所以一个页面的 PR 值取决于导入链接总数,链接源页面的 PR 值,以及链接源页面上的导出链接数目。
PR 值计算公式是:
PR(A)=(1-d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn))
A代表页面A。
PR(A)则代表页面 A的 PR 值。
d为阻尼指数。通常认为 d-0.85
t1***tn,代表链接向页面A的页面t1到tn。
C代表页面上的导出链接数目。C(t1)即为页面 t1上的导出链接数目。
从概念及计算公式都可以看到,PR 值必须经过多次迭代计算才能得到。页面 A的 PR 值取决于链接向A的页面t1至tn页面的 PR 值,而t1至tn页面的 PR 值又取决于其他页面的 PR 值,其中很可能还包含页面 4。计算时先给所有页面设定一个初始值,经过一定次数的迭代计算后,各个页面的 PR 值将趋于稳定,收敛到一个特定值,研究证明,无论初始值怎么选取,经过迭代计算的最终 PR 值不会受到影响。
对阻尼系数做个简要说明。考虑如图 2-34 所示这样一个循环(实际网络上是一定有在这种循环的)。
外部页面 Y向循环注入 PR 值,循环中的页面不停迭代传递 PR,如果没有阻尼系数循环中的页面 PR 将达到无穷大,引入阻尼系数,使 PR 在传递时自然衰减,才能将 PR计算稳定在一个值上。
2.PR 的两个比喻模型
关于 PR 有两个名的比喻。一个比喻是投票。链接就像民主投票一样,A 页面链接到 B 页面,就意味着 A 页面对 B 页面投了一票,使得 B 页面的重要性提高。同时,A页面本身的 PR 值决定了 A 所能投出去的投票力,PR 值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的 PR 则是看别人怎么评价一个页面。
第二个是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓 PR 值,就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多,被访问到的概率就越高,因此 PR 值也越高。
阻尼系数也与随机冲浪模型有关。(1-d)-0.15 实际上就是用户感到无聊,停止点击随机跳到新 URL 的概率。
3.工具条 PR
真正的用于排名计算的 Google PR 值我们是无法知道的,我们所能看到的只是 Google 工具条 PR 值。需要清楚的是,工具条 PR 值并不是真实 PR 值的精确反映。真实 PR 值是一个准确的、大于 0.15、没有上限的数字,工具条上显示的 PR 值已经规范化为0~10 这 11 个数字,是一个整数,也就是说 PR 值最小的近似为 0,最大的近似为 10。实际上每一个工具条 PR 值代表的是很大一个范围,工具条 PR5 代表的页面真实 PR 值可能相差很多倍。
真正的PR 值是不间断计算更新中的,工具条 PR 值只是某一个时间点上真实 PR 值的简化快照输出。在过去 10 多年中,Google 快则每个月更新一次工具条 PR,慢则近一年更新一次。2014年 10 月,Google 员工 John Mueller 在一次视频问答中表示,Google以后可能不会更新工具条 PR 了。最后一次工具条 PR 更新是 2013 年 12 月 6日,而且那次也是 Google 工程师在做别的事情时顺便(估计是不小心或不得已》输出的,不是计划中的,所以基本上可以肯定,以后 Google 不会再更新工具条 PR 值了。最近几年条 PR 值更新的日期如表 2-4 所示。
工具条 PR 与反向链接数目呈对数关系,而不是线性关系。也就是说如果从 PR1到 PR2 需要的外部链接是 100 个,从 PR2 到 PR3 则需要大致 1000 个,PR5 到 PR6 需要的外部链接则更多。所以 PR 值越高的网站想提升一级所要付出的时间和努力比 PR 值比低的网站提升一级要多得多。
4.关于 PR 的几个误解
PR 的英文全称是 PageRank。这个名称来源于发明人佩奇(Page)的名字,巧合的是 Page 在英文中也是页面的意思。所以准确地说 PageRank 这个名字应该翻译为佩奇织别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把 PR 称为页面级别。
PR 值只与链接有关。经常有站长询问,他的网站做了挺长时间,内容也全是原创的怎么 PR 还是零呢?其实 PR 与站长是否认真、做站多长时间、内容是否原创都没有直接关系。有反向链接就有 PR,没有反向链接就没有 PR。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,所以会间接提高 PR 值,但这并不是必然的。
工具条 PR 值更新与页面排名变化在时间上没有对应关系。在工具条 PR 值更新过程中,经常有站长说 PR 值提高了,难怪网站排名也提高了。可以肯定地说这只是时间上的巧合而已。前面说过,真实的用于排名计算的 PR 是连续计算更新的,随时计入排名算法。我们看到的工具条 PR 几个月才更新一次,最后一次更新已经是 2013 年 12 月。即使在工具条 PR 还更新时,当我们看到有 PR 变化,真实的 PR 早在几个月之前就更新意义的。
5.PR 的意义
Google 工程师说过很多次,Google PR 现在已经是一个被过度宣传的概念,其实 PR只是 Google 排名算法的 200 多个因素之一,而且重要性已经下降很多,SEO 人员完全不必太执着于 PR 值的提高。这可能就是 Google 不再更新工具条 PR 值的原因。
当然,PR 还是 Google 排名算法中的重要因素之一。除了直接影响排名,PR 的重要性还体现在下面几点。
(1)网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。 Google 希望尽量优先收录重要性高的页面,所以 PR 值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页 PR 值是带动网站收录的重要因素之一
(2)访问及更新频率。PR 值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现新页面或旧页面上内容更新时,都能更快速地被收录。由于网站新页面通常都会在现有页面上出现链接,因此访问频率高也就意味着新页面被发现的速度快。
(3重复内容判定。当 Google 在不同网站上发现完全相同的内容时,会选出一个作为原创,其他作为转载或抄袭。用户搜索相关查询词时,被判断为原创的那个版本会排在前面。而判断哪个版本为原创时,PR 值也是重要因素之一。这也就是为什么那些权重高、PR 值高的大网站,转载小网站内容却经常被当作原创的原因。
(4)排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件进行相关性计算,因为返回的文件可能有几百万、几千万,搜索引擎需要从中挑选出一个初始子集,再做相关性计算。初始子集的选择显然与关键词相关度无关,而只能从页面的重要程度着手,PR 值就是与关键词无关的重要度指标。
在的 PR 算法与当初拉里佩奇专利中的描述相比肯定有了改进和变化。一个可以观察到的现象是,PR 算法应该已经排除了一部分 Google 认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。所以有时候我们会看到一个页面有 PR6 甚至 PR7 的导入链接,经过几次工具条 PR 更新后,却还维持在 PR3 甚至 PR2。按说一个 PR6或 7 的链接,应该能把被链接的页面带到 PR5 或 PR4。所以很可能 Google 已经把一部分它认为可疑的链接排除在 PR 计算之外。
再比如,同一个页面上不同位置的链接是否应该传递出去相同数量的 PR 值?正文、侧栏导航、页脚的链接应该同等对待吗?按照最初的 PR 设计,是的,因为没有考虑链接位置。但显然,不同位置的链接重要性是不一样的,被真实用户点击的概率也是不一样的,那么传递出去的 PR 值是否也应该不一样呢?现在的 Google PR 值算法中是否已经引入了矫正呢?
PR 专利发明人是拉里佩奇,专利所有人是斯坦福大学,Google 公司拥有永久性排他使用权。
虽然 PR 是 Google 拥有专利使用权的算法,但其他所有主流搜索引擎也都有类似算法,只不过不称为 PR 而已。所以这里提到的 PR 的作用和意义,同样适用于其他搜索引擎。