网站结构优化

本章将讲到一下几点:

  • 搜索引擎友好的网站设计
  • 避免蜘蛛陷阱
  • 物理及链接结构
  • 清晰导航
  • 子域名和收录
  • 禁止收录机制
  • nofollow的使用
  • URL设计
  • 网址规范化
  • 复制内容
  • 绝对路径和相对路径
  • 网站地图
  • 内部链接及权重分配
  • CMS系统
  • 404页面

网站内的优化大致两个部分,一是网站结构优化,二是页面上针对关键词的相关性优化。SEO人员往往比较看重页面优化,而忽视网站结构优化,其实网站结构优化比页面优化更重要,难度也更大
从SEO的角度看,优化网站结构要达到以下几个目的:
1、用户体验。网站逻辑结构要清晰,让用户访问一个网站必须能不假思索的点击链接,找到自己想要的信息。
2、收录。网站页面的收录在很大程度上依靠良好的网站结构。理论上,清晰的网站结构很容易说清楚,只要策划好分类或频道,然后在分类下加入产品页面,整个网站自然形成树形结构。
3、权重分配。
4、锚文字。锚文字是排名算法很重要的一部分,网站内部链接锚文字是站长自己能控制的,所以是最主要的增强关键词相关性方法之一。

一、搜索引擎友好的网站设计

从搜索引擎蜘蛛的角度去看一个网页,蜘蛛在抓取、索引和排名的过程会遇到哪些问题呢?解决了这些问题的网站就是对搜索引擎友好的网站。

对搜索引擎友好的网站包括以下几个要素:

  • 让搜索引擎能找到网页
  • 让搜索引擎能抓取页面内容
  • 让搜索引擎抓取页面后提炼有用的信息

二、避免蜘蛛陷阱

有一些网站设计技术对搜索引擎来说很不友好,不利于蜘蛛的爬行和抓取,这些技术被称为蜘蛛陷阱,我们应尽量避免这些陷阱。

2.1 flash

在网页的一小部分使用flash增强视觉效果是很正常的,这种小flash和图片是一样的,知识HTML代码中的很小一部分,页面上还有其他以文字为主的内容,所以对搜索引擎抓取和收录没有影响。

但是有的网站整个首页就是大的flash文件,这就构成了蜘蛛陷阱。这种网站整个就是一个flash的网站,可能视觉效果很精彩,可惜搜索引擎看不到,不能索引出文字信息,所以无从判断其相关性。

2.2 session ID

2.3 各种跳转

2.4 框架结构

2.5 动态URL

动态URL指的是数据库驱动的网站所生成的带有问好、等号及参数的网址,一般来说动态URL不利于搜索引擎蜘蛛爬取,应该尽量避免。

2.6 JavaScript链接

由于JavaScript可以创造出很多吸引人的视觉效果,有些网站喜欢用JavaScript脚本生成导航系统。这也是比较严重的蜘蛛陷阱之一,因为蜘蛛爬行JavaScript是非常困难的。

2.7 要求登录

有些网站内容放在需要用户登录之后才能看到的会员领域,这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码,也不会注册。

2.8 强制使用cookies

有些网站为了实现某种功能,如记住用户登录信息、跟踪用户访问路径等,强制用户使用cookies,用户浏览器如果没有启用cookies,页面显示不正常。而搜索引擎就相当于一个禁用了cookies的浏览器,强制使用cookies只能造成搜索引擎蜘蛛无法正常访问。

三、物理及链接结构

网站结构有两方面的意思,一是物理结构,二是链接结构。

3.1 物理结构

物理结构指的是网站真实的目录及文件所在的位置决定的结构。一种是树形结构,一种是扁平式结构。

一般来说,金字塔结构逻辑清晰,更加适合网站搭建,而扁平式结构则适合非常小的网站。

3.2 链接结构

网站结构的第二个意义指的是链接结构,又称为逻辑结构,也就是指网站内部链接形成的链接的网路图。

比较合理的链接结构是树形结构。

四、清晰导航

网站系统导航应注意以下几点:

  • 文字导航。尽量使用最普通的HTML文字导航,不要使用图片作为导航链接,更加不要使用JavaScript生成导航系统,也不要使用flash做导航。
  • 点击距离及扁平化。良好的导航的目标之一就是使所有页面与首页点击距离越近越好。权重普通的网站,内页离首页不要超过四五次点击。
  • 锚文字包含关键词。导航系统中的链接通常是分类页面获取内部链接的最主要来源,数量巨大,其锚文字对目标页面相关性有相当大的影响,因此分类名称应尽量使用目标关键词。
  • 面包屑导航。面包屑导航对用户和搜索引擎来说,是判断页面在网站整个结构中的位置的最好方法。正确使用面包屑导航的网站通常都是架构比较清晰的网站。
  • 避免页脚堆积

五、子域名和目录

搜索引擎通常会把子域名当做一个基本独立的站点看待,也就是说www.domain.com和www.news.domain.com是两个独立的网站

六、禁止收录机制

有的时候,站长并不希望某些页面被抓取和收录,如收费内容、还在测试阶段的页面、复制内容页面等。要确保页面不被收录,需要使用robots文件或meta robots标签。

6.1 robots文件

搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者空文件都意味着允许搜索引擎抓取所有的内容。

6.2 meta robots标签

meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容。最简单的meta robots标签格式为:

七、nofollow的使用

nofollow代码形式为:这里是锚文字,链接的nofollow属性只适用于本链接。nofollow最初的目的是减少垃圾链接对搜索引擎排名的影响,标签意义是告诉搜索引擎这个链接不是经过站长自己编辑的,所以这个链接不是一个信任投票。搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。

nofollow标签通常用在博客评论、论坛帖子、社会化网站、留言板等地方,因为在这些地方任何用户都可以自由留下链接,站长一般不知道这些链接指向何方,也不可能一一查证,所以是垃圾链接最长出现的地方。如果爬虫爬行这些链接会将网站权重分散给这些链接,对于这些链接就要使用nofollow。

八、分页链接静态化

为什么要静态化呢?
怎样静态化?

九、URL设计

  • URL越短越好
  • 避免太多参数
  • 目录层次尽量少
  • 文件及目录名具描述性
  • URL包含关键词
  • 字幕全部小写
  • 一般不要使用连词符

十:复制内容

你可能感兴趣的:(网站结构优化)