数学之美(二十)

不要把鸡蛋放在一个篮子里——最大熵模型

投资时说不要把鸡蛋放在一个篮子里,以降低风险,信息处理中也适用。数学上称这个原理为最大熵模型。

网络搜索排名中用到的信息有上百种,怎么结合更好?在信息处理中,我们知道多种但不完全确定的信息,怎么用一个统一模型把它们很好地综合起来?

比如输入法拼音转汉字,输入wangxiaobo,利用语言模型,根据有限的上下文(比如前两个字)能给出两个常见名字:王小波和王晓波,要确定是哪个名字就难了,如果通篇介绍文学,那王小波可能性大,如果讨论两岸关系,那王晓波可能性大,也就是综合两类不同信息:主题信息和上下文信息。如果不这样搞,比如分成上万种主题单独处理,或者对每种信息的作用加权平均,就好像用小圆套大圆的天体模型,不能准确圆满地解决问题。在很多应用中需要综合几十甚至上百种信息,小圆套大圆的打补丁方法行不通。

1 最大熵原理和最大熵模型

最大熵模型就相当于行星运动的椭圆模型,它的大白话是:保留全部的不确定性,将风险降到最小。比如掷一个你没扔过的骰子,先假设每个面向上的概率都是1/6是最安全的(如果我有6次猜点数的机会,应该每个面都押一次,不应该主观假设它是出老千用的)从投资角度来看风险最小,从信息论来看保留了最大的不确定性,即让熵达到最大。

现在这个骰子经过特殊处理,四点向上的概率是1/3,此时每个面朝上的概率是多少?除了四点是1/3,其它各面应该是2/15(不应假设四点的背面是三点),最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应当满足所有已知条件,而对未知条件不做主观假设。此时概率分布最平均,预测风险最小,概率分布的信息熵最大(保留了各种可能性)。

对前面拼音转汉字的例子,我们已知两种信息,1、根据语言模型,wangxiaobo可转为王小波和王晓波,2、根据主题,王小波是作家,王晓波是两岸关系的学者。因此可以建立一个最大熵模型,同时满足这两种信息,香农奖得主希萨证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在且唯一,形式为指数函数。以下公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中w3是要预测的词(王小波or王晓波),w1和w2是前两个词(比如“出版”“小说家”),s表示主题,Z是归一化因子,保证概率和为1,参数λ和Z都需要通过观测数据训练。

最大熵模型在形式上漂亮完美,早期计算量大,有些人试图用近似模型代替,结果效果不佳。第一个验证最大熵模型优势的是马库斯的高徒拉纳帕提,他没有使用近似,而是找到几个适合用最大熵模型且计算量相对不大的问题(如词性标注和句法分析),将上下文信息、词性、名词、动词、形容词等成分通过最大熵模型结合,做出当时最好的词性标识系统和句法分析器。

2000年左右计算机的进步和算法的提升使很多复杂问题也能用上最大熵模型了,和简单组合特征的模型相比,最大熵模型能提升几个百分点的效果,很多对冲基金使用最大熵模型(证券交易要考虑很多复杂因素)取得了很好的效果。

2 最大熵模型的训练

最大熵模型形式简单,但实现起来计算量大,假设搜索排序需要考虑20种特征{x1,x2,...,x20},需要排序的网页是d,特征互相独立时,对应的最大熵模型:

λ通过训练获得

最原始的训练方法称为通用迭代算法GIS,原理概括为几个步骤:1、假设初始模型(第0次迭代)为等概率分布;2、用第N次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过实际就把相应模型参数调小,如果小于实际就将它们变大;3、重复步骤2直到收敛。

GIS是1970s由达诺奇和拉特克里夫提出的典型的期望值最大算法,不过他们没很好地解释物理含义,后来由希萨阐明了含义。GIS迭代时间长,需多次迭代才能收敛,且不太稳定,即使在64位计算机也会出现溢出,因此实际很少使用GIS,只是通过它了解最大熵模型的算法。

1980s孪生兄弟达拉皮垂(Della Pietra)改进了GIS,提出改进迭代算法IIS,把训练时间缩短了1-2个数量级,即使如此当时只有IBM有条件使用这个模型。

吴军本人发现了一种数学变换,可以把训练时间在IIS的基础上减少两个数量级,之后团队构造了一些很大的最大熵模型,即便如此他们训练一个文法模型,使用了20台当时最快的工作站,仍然算了三个月。

最大熵模型形式简单,实现复杂,用途广泛,在谷歌很多产品如机器翻译,都直接或间接用到了最大熵模型。

1990s达拉皮垂兄弟跳槽到了金融界,和很多IBM同事到了现在世界上最成功的对冲基金公司:文艺复兴技术公司。决定股票涨跌的因素有几十甚至上百种,而最大熵模型能同时满足成千上万种不同条件。文艺复兴公司1988年创立后每年净回报率高达34%,如果1988年投入1块钱,20年后你能得到200多块钱,拳打巴菲特脚踢索罗斯。但是大奖章基金只卖自己人,对外出售的收益率跟其它公司没啥区别。这家公司介绍戳:华尔街量化革命,数学天才西蒙斯和他的大奖章基金

3 小结

最大熵模型可以将多种信息整合到一个模型中,形式上简单优美、效果上既能满足限制条件又能保证平滑性,因此用途很多,但计算量大,需要好的实现方法提供实用性。

你可能感兴趣的:(数学之美(二十))