在所有的SEO工具中,能够被称为利器的工具不多,但Google GSA虚拟机版本绝对算是一个。去年我介绍了《利用Google Search Appliance 服务器做SEO 》,不过这个正式版实在太昂贵而且根据美国的某条法律不销售给中国,所以很多人都没办法用来做SEO应用。 而Google GSA虚拟机版本就很好的解决了这个问题。
先讲讲这个Google GSA虚拟机版本怎么应用到SEO上面吧。
如我以前所说:
你可以把这个GSA看做是google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在google.com这个网站正在用的东西。所以两者之间相似程度非常的高。我在过去操作google mini的时候已经证实:至少它的抓取机制和现在的google.com几乎是一摸一样的。
其实何止爬虫抓取机制,连绝大部分排序的算法都是一样的。虽然这个GSA内置了更多给离线文档(如 pdf\word\)排序的算法,但是在给网页排序这块的算法和google.com如今正在用的算法是非常接近的。因为这个GSA的本意是给某些需要搜索的企业用户来索引他们自己的信息,是希望用google的技术能力来帮他们索引最相关的信息,不然就没有必要非得用google的产品了。 开发过小规模搜索引擎的人都知道,对于小型搜索引擎,其他东西大家都能基本做到,GSA值钱的地方就是这个排序算法,这是大家选择GSA的首要原因。
另外,这个方法是一个有着11年SEO经验并且在美国google做过2年产品经理的人强烈推荐使用的方法,他自己就买了2台正式版。
不过排序算法总还是有差别的,根据我使用了2年多GSA的经验,对于网页的排序算法90%以上是一样。
GSA在SEO方面至少有以下几个应用。
第一个应用就是检查搜索引擎爬虫在你网站上可能遇到的问题。
因为这是一个真正的搜索引擎,而且对于google来说,GSA和google.com的爬虫是一模一样的,所以检查到的问题都是真正的搜索引擎爬虫会遇到的问题。
操作方法为:
点击“抓取并编制索引” —> “抓取网址”,按如下格式输入你要检查的网址,按后点击“保存要抓取的网址”。
在“状态和报告”—>“ 抓取状态”里,点击“恢复抓取”。
等一段时间以后,如果一切正常,在GSA的前台就可以开始搜索到网站的内容。
在“状态和报告”—>“抓取状态”里,就可以看到爬虫遇到的一些问题。如:
点击出错的部分,会列出哪些URL因为什么原因出错。
这个虚拟机版本已经内置了一些数据。每次测试前,都需要把数据清空。 在 “管理”—>“重置索引”里, 点击“立即重置索引”可以清空所有已经抓取的数据。
看着这些似曾相识的界面,应该能明白我以前写那篇《google 的良苦用心:网站管理员工具》的依据了。
第二个应用就是可以探测到google大部分基本的排序规则。
以前很多人在做SEO过程中对很多排名因素都是不能确定的。 如:到底 h1 放多少个好、有没有必要加导出链接等等。
有了GSA,就可以做大量的 A/B测试,就能把很多因素都测试出来。 如:测试<h2> 和 <strong> 这两个标签哪个对排名的影响更大一点。
那就可以设计A和B两个网页,其他部分都一模一样,只是某个特定的关键词,A网页是用 <h2> 加粗的,B网页是用 <strong> 加粗的。 用GSA只收录这两个网页,并且只对这两个网页进行排名。在前台搜索这个关键词,看哪个网页排在前面,这样就可以知道哪个因素对排名的影响大一些了。
有点需要注意一下的是,那些被测试的网页,如果上面有链接而你又没做限制的话,爬虫会顺着这些链接把很多网页都收录进来,那会对测试结果造成干扰。
类似的测试方法还有很多,只要你想得到都可以去测试。 这样能把google宣称的200多项排序规则中的一大半规则都可以测试出来。 不过要明白一点的是:即使能把所有的规则测试出来,也不一定能做好SEO,在《怎样形成一套非常科学系统的SEO方法》中我说过:做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事。 等大家把很多排序规则都测试出来了再来做SEO就明白了。
只是知道了这些规则,那就不需要听那些毫无来由的SEO规则了,很多事情你自己完全能确定是怎么回事。还有就是就算要向你老板交代你的SEO做法的时候也可以理直气壮一点。
另外,由于百度也在不停的“学习”google的算法,所以这里的很多规则对百度也适用。(其实大部分搜索引擎的很多做法,甚至开发语言都是一模一样的。 顺便广告一下: 杭州光年已经能开发搜索引擎及其很多应用。如小型搜索引擎、网站站内搜索、基于搜索的舆情监控系统、公司内部文档搜索等等。不是用开源程序开发。)
第三个应用就是可以查看内部链接的结构,看哪些网页被内部链接推荐得多一点。
在《内部链接还是外部链接?》一文中,讲述了内部链接的重要性。 但是极少有网站知道自己的每个网页内部链接的分布情况,有了GSA,这个就很容易办到了。
在“状态和报告”—>“ 抓取状态”里,输入刚才GSA收录的网址,“网址状态”选 “已抓取”,就可以查询到已经被收录的网页的PR在站内有多高。
这是在没有任何外部链接的情况下,网站纯依靠自身的内部链接造就的网站内部的PR值分布情况。 点击具体的URL,还可以查看详细的信息如:
当然还有其他一些应用,如:只收录自己的网页和竞争对手的网页并进行排序,如果你自己的网页排在后面,就不停的改进直到超过对手的网页。其他更多的应用还是靠大家慢慢发掘吧,都写出来就没什么意思了。 用它确实是可以做出一个完美的SEO网页。
这个虚拟机版本是运行在Vmware上的,Vmware7.1.3 的下载地址是:http://download.pchome.net/system/sysenhance/redirectsrv-4673-1.html
初次使用虚拟机的同学最好装个Vmware7.1.3的汉化补丁。
GSA虚拟机版本的下载地址放在光年论坛上: (需要论坛会员才能看到下载地址)
http://www.gnbase.com/thread-13-1.html
Vmware的安装过程略过,不过注意一下Vmware在安装过程中会安装几个虚拟网卡,如果电脑上的防火墙提示你的时候,一定要允许共享或通过。
要使用GSA,google官方建议的电脑配置为:
不过我在双核 1.8G 、2GB内存的笔记本上运行也不是太慢。之所以建议用40GB的硬盘空间是因为这个虚拟机版解压缩以后的大小是近35GB。
Vmware安装好以后,直接导入解压缩以后的那个vgsa.vmx ,然后打开虚拟机电源,接下来就是一段漫长的等待。
等出现配置界面的时候,就开始配置。
大部分情况下,都需要手动配置GSA的设置,不然在后台抓取网页的时候会出现“DNS错误”。 先用 ipconfig 命令查看你本机的IP ,再来配置GSA。
按 Ctrl + G 进入虚拟机,再按 F2 ,按键盘上的 -> 选择 Manual , IP 地址要填和你的电脑在同一个网段的其他IP地址。 其他和你本机的一样。 DNS就填和 Gateway 一样的地址,DNS Suffix 可以随便填。
即使配置好了,可能还不能马上使用,需要等待一会。 我记得GSA正式版从启动到能使用是需要等20分钟的,虚拟机版本也需要稍等一会。
GSA的后台访问地址是: http://{刚才配置的IP}:8000 , 前台访问地址是:http://{刚才配置的IP}。后台的登录密码压缩包里有。
软件的使用细节还有很多,GSA的使用交流可以到光年论坛。 因为现在大家都可以用它来探测google的排序算法,我相信会有很多的成果能发布在论坛上的。
自从去年我发布那篇介绍GSA的博客2个月后,因为有google的朋友也看这个博客,我猜google可能意识到了某些问题,所以google中止了GSA虚拟机版的更新,我这个版本是最新的一个版本。 我放这个版本出来是希望SEO行业从此不要道听途说或人云亦云,SEO是可以做得很科学的,SEO要长久发展下去就必须走规范化和标准化的道路。