《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

    任何搜多引擎给出的结果都不完美,多少会有点噪音。有些噪音是人为造成的,其中最主要的噪音是针对搜素引擎网页排名的作弊(SPAM);另一些噪音则是在用户在互联网上的活动产生。

1 搜索引擎的反作弊

    针对搜索引擎的作弊,就是采用不正当的手段提高自己网页的排名。

        早期最常见的作弊方法是重复关键词。

        有了网页排名之后,一个网页链接越多,排名就可能越靠前。

    搜素引擎作弊从本质上看就如同对(搜素)排序的信息加入噪音,因此反作弊的第一条是要增强排序算法的抗噪音能力。其次是像在信息处理中去噪音那样,还原原来真实的排名。

    噪音消除的过程是一个反卷机的过程。

    从广义上讲,只要噪音不是完全随机并且前后有相关性,就可以检测并且消除。

    反作弊的另一个工具是图论。

    强调:第一,Google的反作弊和恢复网页原有排名的过程完全是自动的(并没有个人的好恶)。第二,大部分搜索引擎优化器和帮助别人作弊的人,只针对占市场份额最大的搜索引擎算法来作弊,因为作弊也是有成本的。

    作弊的本质是在网页排名信号中加入噪音,因此反作弊的关键是去噪音。

2 搜索结果的权威性

    用户使用搜索引擎一般有两个目的。其一是导航,即通过搜索引擎找到想要访问的网站。其二是查找信息。

    首先,PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性。

    其次,互联网对同一个问题给出的答案常常互相矛盾。

    计算权威度的步骤:

        1. 对每一个网页正文中的每一句进行句法分析,然后找出涉及到主题的短语,以及对信息源的描述。这样我们就获得了所谓的“提及”信息。

        2. 利用互信息,找到主题短语和信息源的相关性。

        3. 需要对主题短语进行聚合。

        4. 对一个网站中的网页进行聚合。


你可能感兴趣的:(《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题)