证券简称:思亿欧证券代码:839255
24小时服务热线:135 3822 1946
行业知识

行业知识

搜索引擎友好的网站设计

发布时间:2021-11-19

 如果我们从搜索引擎椒蛛的角度去看待一个网站,在抓取、索引和排名时会遇到哪些问题呢?解决了这些问题的网站设计就是搜索引擎友好(search engine friendly)的。

1、搜索引擎蜘蛛能不能找到网页

要让搜索引擎发现网站首页,就必须要有外部链接连到首页,找到首页后,蜘蛛沿着内部链接找到更深的内容页,所以要求网站要有良好的结构,符合逻辑,并且所有页面可以通过可爬行的普通 HTML 链接达到。JavaScript 链接、Flash 中的链接等搜索引黎蜘蛛一般不能跟踪爬行,就会造成收录问题。

网站所有页面离首页点击距离不能太远,最好在四五次点击之内。要被搜索引擎收录,页面需要有最基本的权重,良好的网站链接结构可以适当传递权重,使尽量多的页面达到收录门槛。

2.找到网页后能不能抓取页面内容

被发现的 URL 必须是可以被抓取的。带有过多参数的 URLSession ID、整个页面是 Flash、框架结构(frame)、可疑的转向、大量复制内容等都可能使搜索引擎敬而远之

某些文件站长可能不希望被收录,除了不链接到这些文件,更保险的方法是使用 robots 文件或 meta robots 标签禁止收录。

3.抓取页面后怎样提炼有用信息

关键词在页面重要位置的合理分布、重要标签的撰写、HTML代码精简、起码的兼容性等,可以帮助搜索引擎理解页面内容,提取有用信息。这部分在第 5 章“页面优化”部分再深入讨论。

只有搜索引擎能顺利找到所有页面,抓取这些页面并提取出其中真正有相关性的内容,网站才可以被视为是搜索引擎友好的。关于网站结构的优化,有一句话非常精辟:“良好引用,良好结构,良好导航”。网上转载这句话的人很多,据我所知,最早应出自车东的博客。

搜索引擎不友好的网站比比皆是,尤其是一些中小企业网站。不过这样的网站不太好举例,没得到网站主人的许可就当作负面案例讨论非常不恰当。在写本节时刚好在 zaccode.com 网站看到一个会员询问搜索引擎不收录他们的内页是怎么回事。我点击过去

看了一下,不由得感叹,这个网站简直是集搜索引擎不友好之大成,是个相当不错的反面教材。在得到网站所有人正式许可后,在这里作为例子简单介绍。

网站域名是 llyez.com,南昌良良母婴用品有限公司,一个母婴保健及家居用品企业网站。应该说网站视觉设计还是不错的,然而从 SEO 角度看,简直就是个“杯具”。首页抓图如图 4-1 所示。

 

除了页脚的联系地址、版权声明两行字外,页面其他部分就是一个大的 Flash,源代码如下:

 

搜索引擎蜘蛛访问首页后,完全没有任何一个链接能通向内页,倒是有指向网站设计服务商及备案网站的链接。搜索引擎既不能抓取和索引 Flash 中的文字内容,也不能跟踪链接爬到内页。如果不给内部页面直接造些外链的话,整个网站能被收录的基本上只有首页一个页面,其内容还不能被索引。

单击左侧婴儿保健用品链接(Flash 中的链接)进入内页,如图 4-2 所示。

看起来设计不错。可惜的是,除了左下角的新闻中心部分,页面上的其他文字、图片还是一个大 Flash,包括顶部的导航条。所以就算站长给这个婴儿用品页面造一些外链,收录又到此为止了。企业概况、商品中心、在线商城等重要部分的页面还是没有任何爬行通路。

左下角的新闻中心设计也有些奇怪,鼠标放上去时才显示链接,而且只显示了一半

如图4-3 所示。

点击第一篇新闻中心文章后来到如图4-4所示的这个页面。

顶部导航依然是 Flash,从新闻中心爬到产品页面也不可能了。另一个可怕的地方是 URL,读者可以在抓图地址栏中看到一部分。下面是 HTML 代码的相应部分,读者可以看到完整的网址。

同样,导航还是 Flash。值得欣慰的是左侧产品链接是普通 HTML 链接,不过单击任何一个产品都可以看到长长的 URL,如图 4-6 所示。

产品页面本身就是一个大图片,没有可以索引的文字。

对比首页、商品中心首页及产品页面标题,大家可以看到这个网站上除了新闻中心的几个页面之外,其他所有页面包括企业概况、商品中心、在线商城、在线调查等页面标题全都一样。

在本书第 2 版修改时(2012 ),我特意又访问了这个网站,网站并没有变化。现在做本书第3版的修改,又好奇地访问了一下,发现网站已改版,但存在的问题几乎和以前是一样的。

这是一个典型的搜索引擎不友好的企业网站,只考虑到视觉设计,完全没顾及到怎样被搜索引擎收录,怎样获得搜索流量。读者看完第 4 章和第 5 章,再回头看一遍这个例子,会更了解这个网站为什么搜索引擎不友好,应该怎样改进。