搜索引擎反作弊之:链接作弊与隐藏作弊

                             本文节选自《这就是搜索引擎:核心技术详解》第八章

8.2 链接作弊

     所谓“链接作弊”,是网站拥有者考虑到搜索引擎排名中利用了“链接分析”技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。常见的链接作弊方法众多,此节简述几种比较流行的作弊方法。

 

1.链接农场(Link Farm)

       为了提高网页的搜索引擎链接排名,“链接农场”构建了大量互相紧密链接的网页集合,期望能够利用搜索引擎链接算法的机制,通过大量相互链接来提高网页排名。“链接农场”内的页面链接密度极高,任意两个页面都可能存在互相指向链接。图8-2展示了一个精心构建的链接农场。

                搜索引擎反作弊之:链接作弊与隐藏作弊_第1张图片

                        图8-2 链接农场

      

 

2.Goolge 轰炸(Google Bombing)

      “锚文字”是指向某个网页的链接描述文字,这些描述信息往往体现了被指向网页的内容主题,所以搜索引擎往往会在排序算法中利用这一点。

      作弊者通过精心设置锚文字内容来诱导搜索引擎给予目标网页较高排名,一般作弊者设置的锚文字和目标网页内容没有什么关系。

      几年前曾经有个著名例子,采用“Google轰炸”来操控搜索结果排名。当时如果用Google搜索“miserable failure”,会发现排在第二位的搜索结果是美国时任总统小布什的白宫页面,这就是通过构建很多其它网页,在页面中包含链接指向目标页面,其链接锚文字包含 “miserable failure”(参考图8-3和图8-4)。通过这种方式就导致了人们看到的搜索结果。

 

              搜索引擎反作弊之:链接作弊与隐藏作弊_第2张图片                      

                               图8-3  Google轰炸的原理

 

                    搜索引擎反作弊之:链接作弊与隐藏作弊_第3张图片

                           图8-4  Google轰炸后的效果

 

3.交换友情链接

    作弊者通过和其它网站交换链接,相互指向对方的网页页面,以此来增加网页排名。很多作弊者过分地使用此种手段,但是并不意味这使用这个手段的都是作弊网站,交换友情链接的做法也是正常网站的常规措施。

 

4.购买链接

     有些作弊者会通过购买链接的方法,即花钱让一些排名较高的网站的链接指向自己的网页,以此提高网站排名。

 

5.购买过期域名

   有些作弊者会购买刚刚过期的域名,因为有些过期域名本身的PageRank排名是很高的,通过购买域名可以获得高价值的外链。

 

6.“门页”作弊(Doorway Pages)

     “门页”本身不包含正文内容,而是由大量链接构成,而这些链接往往会指向同一网站内的页面,作弊者通过制造大量的“门页”来提升网站排名。

 

 

8.3 页面隐藏作弊

    “页面隐藏作弊”通过一些手段瞒骗搜索引擎爬虫,使得搜索引擎抓取的页面内容和用户点击查看到的页面内容不同,以这种方式来影响搜索引擎的搜索结果。常见的页面隐藏作弊方式有:

1.      IP地址隐形作弊(IP Cloaking)

       网页拥有者在服务器端记载搜索引擎爬虫的IP地址列表,如果发现是搜索引擎在请求页面,则会推送给爬虫一个伪造的网页内容,而如果是其它IP地址,则会推送另外的网页内容,这个页面往往是有商业目的的营销页面。

2.      HTTP请求隐形作弊(User agent Cloaking)

        客户端和服务器在获取网页页面的时候遵循HTTP协议,协议中有一项叫做“用户代理项”(user agent)。搜索引擎爬虫往往会在这一项有明显的特征(比如Google爬虫此项可能是:Googlebot/2.1),服务器如果判断是搜索引擎爬虫则会推送和用户看到的不同的页面内容。

      图8-5是一个HTTP请求隐藏作弊的例子,作弊网站服务器推送给搜索引擎爬虫的页面是讲述减肥食品的内容,而推送给页面访问者的则是减肥产品销售推广页面。这样当用户在搜索减肥知识的时候就会直接访问减肥产品页面,从而达到作弊者的商业目的。

        搜索引擎反作弊之:链接作弊与隐藏作弊_第4张图片               

                          图8-5  HTTP请求隐藏作弊

 

3.      网页重定向

       作弊者使得搜索引擎索引某个页面内容,但是如果是用户访问则将页面重定向到一个新的页面。

        

4.页面内容隐藏

     通过一些特殊的HTML标签设置,将一部分内容显示为用户不可见,但是对于搜索引擎来说是可见的。比如设置网页字体前景色和背景色相同,或者在CSS中加入不可见层来隐藏页面内容。将隐藏的内容设置成一些与网页主题无关的热门搜索词,以此增加被用户访问到的概率。


你可能感兴趣的:(搜索引擎)