《统计学习方法》学习笔记

        最近把李航的《统计学习方法》看完了,感觉很不错,从概论到各个统计方法,由易到难层层推进,每个方法都有详尽的数学公式推倒,感觉很适合有一定数学功底的人作为机器学习入门来看。可惜本人自幼愚钝,资质欠佳,以前学的概率论与数理统计的知识都忘得差不多了,看得云里雾里的,前面还好,越到后面越看不明白,遇到不懂的就上网查资料、翻书。好歹囫囵吞枣的全部看完了,也是收获颇丰。

        (以下内容纯属本人胡诌的,请专业人士马上撤离,以免伤及无辜。注意,这不是演习!!!)

        前面几个方法都还比较简单,感知机、k近邻法、朴素贝叶斯和决策树,连我这种人都看明白了,但还有一些深层次的东西没有挖掘出来,想深究的朋友可以去看看相关的论文。这几个方法都可以自己写写程序跑跑语料库,还是很有成就感的。逻辑斯谛回归与最大熵模型后面就开始难起来了。最大熵模型的原理十分优美,还真是符合他的名字,大上。不过从吴军的《数学之美》得知他的实现方法十分复杂,运算量很大。我感觉是个很有潜力的方法,等以后计算机发展的更快了会有很大的用武之地。支持向量机(Support Vector Machine)名字十分拉风,说白了其实就是感知机的高级版,由于加入了核函数可以有非线性支持向量分类机,效果很好并且运算量不是很大,算是现在用的最广泛的方法了。刚开始接触 AdaBoost 完全是吓到我了,我擦擦,强可学习(strongly learnable)和弱可学习(weakly learnable)竟然是等价的!但是学习完 AdaBoost 算法后,也就是那么回事嘛……隐马尔科夫模型和条件随机场感觉是一个思想的产物,这两个方法是本书最难的两个方法了。隐马尔科夫链以前还接触过,条件随机场完全是不懂啊,这名字太炫酷了,根本停不下来!也罢,等以后遇到了再看吧。

        看书的时候我问师兄,“这些方法不会用程序实现,怎么用啊?”师兄不屑的看了我一眼,“有现成的工具包,不用自己写。”好吧,我就猜到了会是这样。感觉现在 NLP 比的不是数学,而是人力了。谁的语料库强大,把所有方法都试一遍,选出来最好的方法,也不管为什么这样做结果好,中间的运算过程完全是黑盒操作。随便一个人。这就像是业余黑客和真正黑客的区别,一个是用工具的,一个是写工具的。

        作为一个 NLP 菜鸟,还是应该先从学习工具包入手的,我最近玩了玩几个比较出名的 NLP 工具包 Word2Vec、SVM-light 和 Maxent。等玩出名堂了再写个简易版教程。

你可能感兴趣的:(NLP)