证券简称:思亿欧证券代码:839255
24小时服务热线:135 3822 1946
行业知识

行业知识

网站快速诊断

发布时间:2021-11-17

 详细诊断网站、提出优化方案是本书要解决的问题,本节先简单介绍网站快诊断方法。SEO 服务商在刚刚与客户接触时,尤其需要对目标网站做快速检查,发现重要问题。

快速诊断的第一步是检查上一节提到过的、研究竞争对手网站时同样的指标。另外要加上的是计算页面收录率,也就是搜索引擎收录页面数与网站实际总页面数之比,站长一定要清楚自己网站上的实际页面总数,如果收录比例在 20%~30%,说明网站结构有很大问题,需要改进。达到 60%以上才是合格的。

快速诊断的第二步是查看各主流搜索引擎站长工具给出的信息。百度、Google360、必应、搜狗等都开通了站长平台(或称为站长工具)Google 站长工具最老,功能目前最全面,所以本节还是以 Google 站长工具为例。百度站长平台近两年发展很快,而且站长平台团队非常愿意倾听站长们的心声,不断开发新功能,完善现有功能,相信功能和实用性超过 Google 只是时间问题。百度站长平台特有的功能在 SEO 工具章节在做介绍。

Google 站长工具是一个非常好用、非常强大的工具,强烈建议所有站长注册

http://www.google.com/intl/zh-CN/webmasters

Google 站长工具控制台如图3-33 所示。

首先,如果网站有重大问题,如网站被黑、页面有病毒或者网站因为作弊被人工册除或严重惩罚,Google 会在站长工具网站消息里给站长留言,站长不必猜测到底出了什么问题。网站消息部分还可能有各种提醒性质的留言,如 404 过多,网站某段时间不能访问等,SEO 登录后首先应该看看 Google 留了什么消息。

没有严重问题时,站长可以查看下面这些主要内容。

1robots 文件检查

整个网站不能收录或某个目录下所有页面都不能收录,经常是因为 robots.txt 文件差错引起的。站长工具抓取部分 robots 文件测试工具,如图 3-34 所示。

 

站长可以在这里测试 robots 文件指令是否正确,输入一个网址,点击“测试”按钮看输入的网址是否可以被抓取或是被禁止,以及被哪一行指令禁止,如图 3-35 所示。

robots 文件中的任何一个字母差错都可能造成致命影响。有了这个工具,站长可以确保 robots 文件中的每一行代码正确,不会错误禁止应该被抓取的文件或目录。

 

2 首选域设置

站长可以设置 Google 应该收录带 www 还是不带 www 的网址版本,称为首选域,如图 3-36 所示。

 

这个功能目前的位置有点别扭,不是从左侧菜单访问,而是点击右上角设置按钮(齿轮图标),然后选网站设置。

当然,在 Google站长工具设置的首选域对百度等其他搜索引擎完全不起作用。这只是解决 Google 网址规范化的辅助手段,不能完全依靠这个设置,正确合理的网站结构才是解决问题的根本方法。站长也可以在这部分限制 Google 蜘蛛最大抓取速度

3 关键词排名

在搜索查询部分,站长工具列出网站获得排名的关键词有哪些,并且列出了搜索结果显示次数、点击次数、点击率和平均排名,如图 3-37 所示。

在搜索引擎工作原理章节介绍了搜索结果页面前十名结果的点击率,站长工具则列出了网站真实排名及点击数字。这也为 SEO 人员提供了搜索结果点击分布的另一组数据,可以用于搜索流量预估。不过,要注意的是,站长工具中列出的点击率,很多时候与网站权重、知名度、页面标题标签的写作以及行业有很大关系,并不一定符合其他网站和关键词的点击情况。

 

比如,我的博客在搜索“网站关键词优化”时,显示在第一位1000次,点击率还不到百分之一,如图3-38所示。

 

这与一般搜索结果点击分布相差甚远,说明得到排名的博客帖子与用户搜索意图有一定距离,也可能是因为标题写得不好,造成点击率如此之低。

另外一个关键词SEO 优化”,排在第二位时点击率是 9%,排在第三位时为7%大致正常,如图 3-39 所示。

而另一个搜索词Zac”,点击率又走向另一个极端,排在第 6~10 位时点击率高23%,远远高出一般搜索点击分布,如图 3-40 所示。

 

这说明搜索Zac”时,有很大一部分用户确实是在寻找我的博客。

4 外部链接

Google link:指令非常不准确,基本不能用来查看外部链接。站长工具中列出的外部链接则要准确得多,SEO 人员可以一目了然地看到自己网站上哪些页面最受欢迎吸引到最多的外部链接,如图 3-41 所示。

 

Google 站长工具还列出了外部链接使用的锚文字,站长工具里称为“定位文字”,如图 3-42 所示。

 

这也使 SEO 人员可以清楚地看到自己想排名的核心关键词是否有足够的外部链接锚文字支持。

Google 站长工具也显示出外链来自哪些域名,给了多少外链,如图 3-43 所示。站长可以点击域名链接,继续挖掘出链接来自哪些 URL,又指向哪个 URL

 

Google 熊猫更新后,这部分外链数据显得越来越重要。网站被惩罚的话,站长可以查看自己到底有哪些链接,数量有多大,访问一下对方网站,看看是否是低质量甚至作弊网站,自己建立的外链是否锚文字优化过度等。找到可能引起惩罚的链接,想办法去掉这些链接,去不掉的话就要在站长工具拒绝这些链接。

3-43 中,来自前两个域名的链接就很可疑。

可惜 Google 站长工具外部链接查询不能用于其他网站,只能看到站长自己认证过的网站数据。

5 网站内容

Google 索引部分内容关键字功能列出的是 Google 在网站上抓取的最常见关键词,如图 3-44 所示,显然这些最常见的关键词就反映了网站的内容主题。

从抓图中可以看到,我的博客主体内容大致合理,但是最常出现的两个词却出人意料,一个是 reply(回复),一个是says()。这两个英文词是博客评论模板中出现的,每一个评论都会出现 reply says 各一次。当评论条数比较多时,整个网站主体内容产生了一定的偏移,如图 3-45 所示。

 

查看这里列出的关键词,对页面尤其是首页的文案撰写和修改有重要意义

6 内部链接

内部链接部分列出所有页面的内部链接数,如图 3-46 所示。

站长从这里可以大致判断网站内部链接结构是否有重大缺陷。如果全站主导航中出现的分类首页内部链接数非常低,很可能说明导航系统有问题。

内部链接数的另外一个作用是反映出网站收录页面数。Google site:指令也不太准确,而且现在越来越不准确,经常不能反映出收录数字。站长工具中内部链接部分列出的首页内部链接总数,大致上就相当于 Google 收录的页面总数,因为网站上每一个页面都应该有到首页的链接。

 

7 抓取错误及统计

抓取错误部分列出各种抓取错误,有网站层级的,如 DNS 错误、服务器问题、robots文件禁止(这不一定是错误,只是提醒站长),也有页面层级的,如服务器错误代码、软404404错误(找不到的页面),如图 3-47 所示。

其中 404 错误对检查网站上是否存在错误链接很有用。对每个 404 错误,站长工具都列出了连到这个网址的链接,如图 3-48 所示。

 

如果连到不存在页面的链接是网站内部发出的,立即改正这些页面上的链接地址如果链接向不存在页面的是其他网站,站长可以尝试联系对方更改错误链接到正确位置。

站长工具也列出抓取统计信息。

如图 3-49 所示,我的博客每天抓取页面数平均为几百页,对于一个只有几百篇帖子的博客来说很正常。如果是几十万上百万页面的大中型网站,平均每天抓取几百个页面就太糟糕了,照这个速度,要把整个网站更新一遍,恐怕得好几年时间。大中型网站每天抓取几万页面是最低标准。如果抓取频率太低,SEO 人员必须在外部链接建设及网站结构上多下工夫。

 

8HTML 建议

查看 Google HTML 建议是寻找网站上可能出现的复制内容的最简便方法,如图3-50 所示。

 

站长工具列出了重复的元说明(也就是说明标签)及标题标签个数和具体页面。我的博客存在的重复标题标签如图 3-51 所示

 

标题标签重复,实际上经常意味着这些页面本身内容重复,往往是网站结构造成的。要注意的是,有时候站长工具中列出的数据并不完整,一般来说博客上标题标签重复页面绝不止两页。所以除了检查列出的页面,建议也检查一下同样类型的其他页面

9模拟蜘蛛抓取

Google 抓取方式部分,站长可以输入自己网站上的任何一个网址,站长工具会发出 Google 蜘蛛,实时抓取页面内容,并显示出抓取的 HTML 代码,包括服务器头信息和页面代码,如图 3-52、图 3-53 所示。如果点击的是“抓取并呈现”,Google 会像浏览器一样尝试渲染页面并显示结果,站长可以直观发现哪些 JS 不能被执行和渲染。

显然这对站长确认转向设置和检查服务器是否正确返回内容很有帮助。如果有重要的未收录页面,站长还可以在这里提交 URL

另外,这个工具也可以用来检查页面是否被黑。有的时候黑客放入的代码会检查浏览器类型,如果是用户使用的普通浏览器访问则返回正常内容,如果是搜索引擎蜘蛛访问,才返回黑客加上去的垃圾内容和垃圾链接。所以站长自己访问网站看不出异样, Google 蜘蛛抓到的却不是站长自己看到的内容。这个工具可以帮助站长检查页面是否存在安全漏洞。

10移动设备可用性

移动搜索近两年发展迅速,2014 年年底百度移动流量已经超过 PC 端,因此网站的移动搜索友好性是 SEO 必须关注的重要内容。Google 站长工具移动设备可用性部分列 出了网站在移动搜索方面的问题,如图3-54所示。我的博客没有设置移动版,也没有使用自适应布局,因此字号、布局等方面都需要改进。

11 网址参数

本书网站结构部分将讨论网址规范化和复制内容等问题。造成复制内容问题的原因之一就是网址中可能存在的各种参数,由于参数不同形成不同的网址,但内容可能是一样的,或者不希望搜索引擎索引的。最好的处理方法当然是避免出现这种网址,但经常由于技术限制或功能需要而不得不使用某些参数。

不能避免参数又不希望搜索引擎索引时,可以在 Google 站长工具网址参数 部分通知Google 忽略某些参数,不抓取这类网址,如图 3-55 所示。

虽然这里的设置对其他搜索引擎不起作用,但对其他搜索引擎的抓取问题也有帮助,站长至少可以在这里查看有哪些参数被搜索引擎发现并可能造成复制内容,然后通过 noindexrobots 文件等方法处理。这些方法在第 4 章有详细讨论