许多人可能不了解什么是网站结构,我自己的理解是这样的:
我们的网站,其实是由许许多多的页面组合而成的。我们在实际上网的过程中,就是在不同的页面之间跳转——就像我们在看一本书。想象一下,我们打开一本书,首先有非常详细的介绍,告诉我们第一章是什么内容,第一章的内容是第几页到第几页。得益于清晰的目录和书页的排版,你可以根据自己的喜好,随意地翻到你想看的页面。那么假如我把这本书的每一页都撕下来,最后随意的粘贴在一起,那么这本书就会看起来乱七八糟,因为你完全找不到你想看的内容,就算你找到了,可能你看完一页,却发现第二页并不是上一页内容的衔接。
所以从上面的例子我们可以看出,我们的网站也要像一本排版工整且有逻辑性的书,第一页是什么,第二页是什么,第一章应该说什么,都要有一个清晰的结构,进入我们网站的客户才能找到他想要的内容或者产品。
一、网站结构优化的目的
1.用户体验
做网站结构优化的首要目的就是让用户访问网站的时候,能够清晰的知道自己在哪个页面,页面上面有什么内容,想去别的页面要怎么点击进去。同时提一句,用户在网站的行为方式也会被计入到排名算法内。
2.收录
一个良好的网站结构有利于搜索引擎的收录。而我们seo的整个目的也是尽可能地促进网站页面被搜索引擎收录。
3.权重分配
除了外部链接能够给某个页面带来权重之外,网站本身的结构以及链接关系是内部页面权重分配的重要因素。我们要有意思地规划好网站所有页面的重要程度,然后通过链接结构把权重更多地导向重要的页面。
4.锚文字
锚文字是排名算法很重要的一部分。网站内部的锚文字是我们所能够控制的,所有这是增加关键词相关性的方法之一。在这方面我们可以多向维基百科学习。
二、对搜索引擎友好的网站设计
如果我们从搜索引擎的角度去看待一个网站,当搜索引擎在抓取,索引,排名的时候会遇到哪些问题?而解决了这些问题,就说明我们的网站对于搜索引擎是友好的。
1.搜索引擎能不能找到网页
想要让搜索引擎蜘蛛找到网页,那么首先就需要有外部链接。而当搜蜘蛛顺着外部链接进入我们的网站时,想要让蜘蛛爬取到我们更多的网页,我们就必须有良好的结构。网站内所有的页面最后距离首页不超过4-5次的点击。
2.找到网页后能不能抓取页面内容
URL含有过多参数,整个页面是Flash,框架结构,可疑的转向,大量复制的内容,都可能使蜘蛛不愿意抓取。
3.抓取页面后怎样提炼有用信息
关键词在页面重要位置的合理分布,重要标签的撰写,HTML代码精简,起码的兼容性,都有助于搜索引擎理解并提炼重要信息。这一部分的内容会在后面关于“页面优化”再展开。
三、避免蜘蛛陷阱
有些网站的设计对于搜索引擎非常不友好,这些技术被称为蜘蛛陷阱,主要包括以下这些:
1.Flash
网页的绝大部分都是Flash,这非常不利于搜索引擎抓取和理解页面内容。
2.Session ID
有些网站会使用session id跟踪用户访问,会导致URL变化,不利于蜘蛛抓取。应使用cookie代替。
3.各种跳转
除了301跳转外,搜索引擎不喜欢任何其他形式的跳转。
4.框架结构
这一点的解释我没看懂。但是作者说了,如果我不知道什么是框架结构,那么恭喜我,我已经避免了这个陷阱……好吧,第一次因为无知而得福。
5.动态URL
网站的网址是有数据库驱动生成带有问号,等号,参数等网址。这种动态的URL对客户和蜘蛛都是不友好的。
6.JavaScript链接
使用javascript可以制造出吸引人的视觉效果,但是不利于搜索引擎解析。
7.要求登录
网页的内容设置为必须登录才能查看。但是蜘蛛可不会填写信息登录,所以只会导致整个页面不能被爬取。
8.强制使用cookie
有些网站强制用户使用cookie,如果用户没有启用cookie,页面的显示就不正常。显然,这也是要避免的。
四、物理结构与链接结构
1.物理结构
物理结构是网站真实的目录及文件所在的位置决定的结构。
这一点我们可以想象一下我们电脑上的文件夹。
我们经常把一些文件存放于某个硬盘下的某个文件夹内的某个文件夹内。当然,如果这份文件是你的小秘密,你可以存放地更深……
一样的道理,我们的网站是由网页组合成的,每个网页就像一份文件,我们存放在服务器上面。所以,一般的物理结构就像这样:
http://www.domain.com/catA/product-a.html
http://www.domain.com/catA/product-b.html
http://www.domain.com/catB/product-a.html
http://www.domain.com/catB/product-b.html
……
2.链接结构
链接结构也称为逻辑结构,是网站内部链接形成的网络图。
简单理解就是我们给网站不同的页面设置的一个跳转逻辑,比如网站首页是H,我们指定好了,H页面能够跳转到C1和C2页面,而C1页面又可以跳转到P1页面。
其实对于大多数人(比如我这种操盘小网站的……)来说,我们只要关心链接结构即可。典型的链接结构是树形结构,如下:
其中每个代码代表了一个网站页面。
网页的收录是否容易,与页面处于链接结构的什么位置,距离首页有几次点击有关,与目录层次(物理结构)无关。
五、清晰导航
清晰的导航主要要解决这两个问题:
1.让用户知道我现在在哪里
2.让用户知道我下一步要去哪里
站在SEO角度,网站的导航系统应做好以下几点:
1.文字导航
导航使用最普通的HTML文字,利于抓取。
2.点击距离以及扁平化
导航是把所有页面链接起来的一只手,要尽可能使所有页面距离首页的点击不超过4.5次。
3.锚文字包含关键词
导航中要考虑使用关键词,但是不能堆积,2-4字为宜。
4.面包屑导航
以下图片标红框的位置就可以称为面包屑导航。建议使用。
5.避免页脚堆积
建议避免在页脚堆积关键词,可能导致搜索引擎惩罚。
六、子域名和目录
子域名和主域名是两个完全不同的网站。主域名获得外链提高权重,子域名并不会得到提高。所以对于大多数人(比如我这种操盘小网站的……),并不需要使用子域名。
举例如下:
http://www.domain.com
http://news.domain.com
这是两个不同的网站。
而http://www.domain.com/news就纯粹是http://www.domain.com/的一部分。
七、禁止抓取、收录机制
这一项内容对于大多数人(比如我这种操盘小网站的……)并不需要,所以我只罗列出来,不详细展开。
有的时候,我们不希望某些页面被收录(或者说索引),如付费内容,还在测试的网站,或者是些无意义重复的内容。那么我们可以通过以下手段确保页面不被抓取:
1.robots文件
撰写robots文件,就是在提醒搜索引擎,哪些页面禁止抓取。robots文件不存在或者为空都意味着允许搜索引擎抓取所有内容。
但是要注意的是,被robots文件禁止抓取内容,但该页面的URL还是可能被索引并出现在结果中。想要URL完全不出现在搜索结果中,就需要使用下面这个标签。
2.noindex meta robots标签
使用了noindex meta robots标签的页面会被抓取(只要robots文件没有禁止),但不会被索引(收录)。
注意:抓取和索引(收录)是两个不同的概念。robots文件的作用是禁止抓取,但不禁止索引,meta noindes的作用是禁止索引(收录)。
3.nofollow的使用
nofollow能阻止蜘蛛爬行和传递权重。
一条外链就像一个信任投票,是一个权重的传递。但是当我们只是想要做一个链接,并不想传递权重或者投出这一个信任投票,我们就会使用到nofollow。
一般的用途就是减少垃圾外链。用在博客评论,论坛帖子,社会化网站,留言板等地方。还有个重要用途就是广告链接。
八、URL静态化
有许多网站是由数据库驱动,页面由程序生成。并不是我们一般小网站那样,每个页面都是站长手动创建的。那么就会导致URL是动态的,如这种:
https://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%
包含了许多参数,不利于搜索引擎抓取。
对于大多数人(比如我这种操盘小网站的……),我们的网站的所有页面基本都是自己手动创建的,那么基本不存在URL动态化的问题,所以就不展开了。
九、URL设计
URL设计要遵循以下几个注意点:
1.URL越短越好
2.避免太多参数
这主要是针对动态URL。尽量使用静态URL,如必须使用动态URL,则参数最好在2-3个以内。
3.目录层次尽量少
这里指的是物理目录结构。
4.文件及目录名具描述性
URL具备一定的描述性,不要都是无意义的单词。
比如:http://www.domain.com/news/finance就比http://www.domain.com/cd01-z/sub-a好得多。
5.URL中包含关键词
英文网站关键词出现在URL中,能稍微提高权重,且有利于用户体验。中文网站就不必勉强,URL中出现中文字符,容易显示为乱码。
6.子母全部小写
7.连字符使用
搜索引擎把URL中的短横线,也就是连字符(-)当做空格处理,所以单词之间一般用(-)分隔,不要使用其他奇怪的符号。
十、网址规范化
网址规范化指的是搜索引擎挑选最合适的URL作为真正网址的过程。
举例来说:
http://www.domain.com
http://domain.com
http://www.domain.com/index.html
这三个URL一般指的是同一个文件。虽然这些网址返回的是相同的文件(网页),但是从技术上来说,完全可以对这几个网址返回不同的内容。
如果网站上不同版本的网址同时出现,那么两个或者更多版本的URL都可能被搜索引擎收录,这就会造成复制内容,导致搜索引擎认为内容质量不高,影响收录。
解决的方法如下;
1.所有内部链接保持统一。网站内链接统一使用一个版本,通常选择带www的版本为规范化网址。
2.在Google站长工具中设置首选域。
3.使用301转向,把不规范化URL全部转向规范化URL。
4.使用canonical标签,后面会深入谈论。
5.提交给搜索引擎的XML网站地图中全部使用规范化网址。
十一、301转向
301转向(或叫301重定向,301跳转)是用户或者蜘蛛在向网站服务器发出访问请求时,服务器返回的HTTP数据流中头信息(header)部分状态码的一种,表示本网址永久转移到另一个网址。
其他常见的状态码如下;
202:一切正常。
404:网页不存在。
302:临时转向。
500:内部程序错误。
网址转向还有许多其他的方法,但是除了301转向,搜索引擎对于其他的转向方式都很敏感。
网页A用301重定向转到网页B,搜索引擎可以肯定网页A永久性改变地址,或者说实际上不存在了,搜索引擎就会把网页B作为唯一有效目标。且网页A的权重会转向网页B。
301转向除了解决网址不规范还有些其它用途:
1.为保护版权,公司拥有不同TLD的多个域名:
http://company.com
http://company.net
http://company.org
http://company.com.cn
http://company.cn
为了避免大量复制内容,选定一个主域名,其它域名做301转向到主域名。
2.公司注册了全称域名,比如http://longcompany.com,但是太长,不方便客户记忆,便购买了http://lcn.com作为主域名,另一个做301转向到主域名。
3.网站的改版,如页面删除、改变地址、URL命名系统改变,更换域名等。
4.动态URL也可能要做301,将旧的、动态的URL转到新的、静态的URL。
十一、Canonical标签
Canonical标签相当于一个页面内的301转向,区别在于用户并不被转向,还是停留在原网址上,而搜索引擎会把它当作是301转向处理,把页面权重集中到标签中指明的规范化网址上。用于解决网址规范化问题。
十二、复制内容
复制内容又称为重复内容。指的是两个或者多个URL内容相同,或者非常相似。复制内容既能发生在同一个网站,也可能发生在不同网站上。
产生复制内容的原因:
1.前面讨论的网址规范化问题导致产生复制内容。
2.代理商或零售商从产品生厂商那里转载产品信息。
3.打印版本。很多网站除了提供正常浏览的页面外,还提供适用于打印的页面版本。
4.网站结构造成的各种版本。如产品列表按照价格,评论,上架时间等排序页面。
5.使用Session ID,搜索引擎蜘蛛在不同时间访问网页时,给予了不同的Session ID,实际网页内容一样。
6.网页实质内容太少。每个网页上都有通用内容,比如导航条和版权声明等。如果正文内容过少还不如通用内容多,就会导致被认为是复制内容页面。
7.转载及抄袭。别人抄袭或者转载你的文章。
8.镜像网站。
9.产品或服务之间的区别很小。
10.URL加任意代码还是返回200状态码。
检查页面是否有复制版本的方法:
拿出页面正文中的一句话,加上双引号,在搜索引擎中搜索一下,从结果中就能看到是否有多个页面包含这句话。一般来说,随机挑选的一个句子,完整出现在另一篇无关文章中的可能性很低。
复制内容的害处:
同一个网站内出现大量复制内容,会导致权重分散,且可能导致搜索引擎对网站的质量产生怀疑,导致惩罚。
搜索引擎并不会因为网站有少量复制内容而惩罚或者降权,搜索引擎做的只是从多个页面中挑选出真正的原创版本,或者用户体验最好的版本,给予应有的排名,其他复制版本不在搜索结果或者排名靠后。
一个网站内消除复制内容的方法:
1.确保一篇文章只有一个对应的URL。
2.不是因为网址规范化产生的同站复制内容,可以选取一个版本允许收录,其他版本使用robots文件禁止抓取,noindex meta robots标签禁止索引等。
3.复制内容使用canonical标签。
不同网站之间复制内容解决起来比较麻烦,大致有以下三点:
1.页面中加入版权声明,要求转载的网站保留版权声明以及指向原出处的链接。
2.联系对方要求加上版权、链接或者删除内容,或者直接向对方主机,域名提供商、搜素引擎投诉。
3.坚持原创,假以时日必定能够增加网站权重,使网站上内容被判定为原创的机会增加。
十二、绝对路径和相对路径
绝对路径指的是包含域名的完整网址。相对路径指的是不包含域名的、被链接页面相对于当前页面的相对网址。
在网站正确解析URL的前提下,绝对路径和相对路径本身对排名没有任何影响。对于大多数人(比如我这种操盘小网站的……)建议使用绝对路径。
十三、网站地图
网站无论大小,网站地图都是必须的。主要有两种形式;
1.HTML网站地图,英文是sitemap,s小写。
HTML版本网站地图就是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。
2.XML网站地图,英文是Sitemap,S大写。
XML版本网站地图由XML标签组成。制作好XML地图文件后,有两种方式可以通知搜索引擎。一是在站长工具后台提交网站地图文件。二是在robots.txt文件中通知搜索引擎网站地图文件位置。
需要注意的是,通知到搜索引擎并不能保证就一定收录。XML网站地图只是辅助方法,不能代替良好的网站结构。
十四、内部链接及权重分配
前面提到的网站结构优化要解决的最重要的问题包括收录及页面权重分配。对于大多数人(比如我这种操盘小网站的……)使用经典树形结构是比较好的链接以及权重分配模式。但是不同的网站的目标都不同,所以本节主要做一个扩展思路。
1.重点内页
一般来说,网站首页获取的内部链接最多,权重最高。然后首页链接到一级分类页面,再依次分类下去,权重依次下降。
但是有时候,我们可能希望某个页面权重更高一些,比如一些热销、利润高的产品,或者一些促销专题的页面。解决方法就是在首页加上这些重点内页的链接。
2.非必要页面
网站上总有一些对于用户体验有必要,但是在SEO方面却没必要的页面,如:隐私政策,用户注册页面。如果网站上每个页面都有指向这些页面的链接,就是一种权重的浪费。解决的方法主要是:
第一种,只在首页显示链接,其他页面取消链接。
第二种,使这些页面的链接不能被传递权重,使用Nofollow标签等。
3.大二级分类
当某些二级类目下的产品产品数远大于其他二级类目,我们的通常做法是在列出三级分类。但是这样会导致这些产品页面距离首页过远,权重稀释。解决的思路就是尽可能把这些三级分类的链接也放到导航或者首页内,或者是从用户体验出发,把热门的二级分类尽可能排在前面。
4.翻页过多
对于一些大型商务网站或者信息类网站,页面过多,就会导致翻页过多的问题。网站上会列出“上一页”和“下一页”,但是当页面多到需要点击十几次甚至几十次才能到达的时,这些页面基本不可能被收录了。解决的思路就是可以将页面进行再进行分类,把翻页的次数减少。或者把翻页链接换一种格式,比如下面这种:
1,2,3,4,5,10,20,30
甚至可以做成两排:
1,2,3,4,5,6,7,8,9,10
20,30,40,50,60
5.单一入口还是多入口
多入口指的是指向产品页面的链接路径有多条。
优点是为最终页面提供了多条爬行收录渠道,东方不亮西方亮,提供的入口越多,被收录的机会越大。
缺点是这些入口页面本身也占用了抓取时间和收录页面名额。一个网站的权重大致是固定的,搜索引擎爬行的时间是有上限的,所能收录的总页面数也是有上限的。要提高整个网站的爬行抓取,收录份额,就要想办法提高网站的权重。如果网站权重足够高,能带动的收录页面数远大于实际页面数,提供多入口就是最佳方式。
6.相关产品链接
单一入口还是多入口结构,都有一个缺陷,就是太过规则,有时候会造成某个部分的产品页面都不能被收录。单一入口结构更明显,如果某个分类页面因为导航设计不合理,距离首页太远,那么这个分类下的所有产品页面都可能无法被收录。或者是博客系统中,发表比较早的帖子,总会随着时间的推移而导致权重下降。
解决的方法就是在产品页面生成相关产品链接。通过系统某种机制自动生成的、连向其他产品页面的链接。
这种机制随机性越强,与正常入口的分类区别越大越好。通常方法是:购买了这个产品的用户还购买了哪些其他的产品;统一品牌、生厂商、标签的产品等。
相关产品要尽可能随机,使得本来不相连的页面能够交叉链接起来。
7.锚文字分布及变化
最灵活常见的锚文字分配是基于合理的网站结构之后,在页面正文中人工或自动加上其他页面的链接。这方面要学习的对象非维基百科莫属。
除了正文,其实在导航中的锚文字也可以有变化。顶部导航栏和侧边导航栏可以使用一些语义相近的词做锚文字,而用户一般不会太在意。
8.首页链接NoFollow
当页面上出现多个链接到同一网址时(比如首页),第一次出现的链接最为重要,第一个链接的锚文字也最重要。
一般页面上第一个首页链接是顶部logo,那么logo图片的ALT文字就相当于锚文字,需要放上首页的目标关键词。
但是也有人认为图片上的ALT文字比真正的文字链接锚文字作用要小,那么解决方法就是在页面上第一次出现的导向首页的链接加上NoFollow属性,禁止搜索引擎追踪。然后在页面上其他适合的地方放上关键词作为锚文字链接向首页。
9.深层链接
搜索引擎蜘蛛随着外部链接进入网站后,抓取的路线就像投一颗石子到水中形成的波纹一样,从中心向外扩散。因此给一些距离首页比较远,不太容易被蜘蛛爬到的页面适当建设几个外部链接,可以有效解决一个区块所有页面的收录问题。
十五、404页面
当用户访问网站上不存在的页面时,服务器通常会返回404错误。像这样;
有的站长觉得既然既然页面不存在,那就301转向首页,这对搜索引擎并不友好,会让搜索引擎觉得网站上有大量与首页相同的页面。
正确的做法是对404页面进行设计,保持与网站统一的模板风格,logo名称,然后可以再加入网站地图,通向首页的链接,建议访问的页面或者站内搜索框。
其实对于404页面,有一个有效的外部链接技巧。
SEO可以在谷歌站长工具后台看到Google爬行了哪些不存在的页面,那一般来说一定是有外部链接指向这个页面。那么我们可以充分利用起来,比如联系对方修改地址;把错误地址做301转向到正确页面,或者在本来不存在的页面上创建一个页面来接收这些权重。
以上。
这一篇有许多内容其实是重复的,一定要全篇看完后,挑出重点进行记忆。比如重点就是合理的树形结构,所有页面不可距离首页过远,尽量保持在4-5次点击内到达,对于深度页面建设外部链接等……
这一章的内容全部都写完了,我根据自身的情况,剔除掉了一些用不上的知识点,尽可能做到完整有重点的保留。敲了五六个小时的字,如果对你有帮助,记得点个赞哦,我们下一篇再见~
微信公众号:希声碎碎念