机器学习算法笔记


1、集成学习:

多个learner共同决策,但会消耗计算资源和存储资源


2、bagging:boosting aggregating

同智分类器集成——大多数情况

异智分类器集成

同智:分类器是同一种


3、boosting:

例如:一共有200个样本,learner1训练完成之后有17个样本判别错误,那么下一次就在200的基础上加上17,一共217个样本送给learner2.......如此循环往复,得到很多learner——这是一个强化的过程


weighted voting:用于分类

weighted averaging:用于回归问题


4、semi-supervised learning:半监督学习

高置信度的unlabeled data转化为labeled data

原本labeled data中有100个样本,经过训练得到的分类器在unlabeled data中选择出置信度很高的样本,比如说有40个,那么就把它们加到labeled data中去,这样labeled data中的样本就多了,依次循环往复,直到触碰到截止条件。如:最后无高置信度样本 or learner的分类正确率达到了某种程度


self-training:就一个learner,不断选择数据训练这一个learner

Co-training:多个learner,不断选择数据训练得到新的learner

tri-training:在对未见示例进行预测时,tri-training算法不再像以往算法那样挑选一个分类器来使用,而是使用集成学习中经常用到的投票法来将三个分类器组成一个集成来实现对未见示例的预测。


适用于聚集成一团的数据


5、基于图的算法:

适用于不是聚集成一团的数据


6、cost-sensitive learning  代价敏感性学习

代价最小


7、最小错误率学习

错误最小,不在意犯了哪一种错误


8、Fisher线性判别函数


9、ID3算法(有缺陷)、C4.5算法(开源)、C5.0算法(收费)


10、深度学习:

GPU编程,多层神经网络,目前主要是拼资源

你可能感兴趣的:(算法,机器学习)