【机器学习】监督学习经典模型

分类学习

包括判断是非,多分类问题等等。包括数字识别,新闻分类,物种鉴定,肿瘤判定等等。

线性分类器

未来预期效果 = 每个维度的特征 * 所在维度的权重 + b截距,然后利用logistic函数将F的数据映射到01上,得到结果。
Logistic Regression:擅长精确的计算,但是消耗很多资源。
SGD Classifier:擅长大数据(10W+),模型性能略低。

支持向量机(分类)

根据训练样本的分布,找到一个最适合的分界线,擅长在高维度的数据中,筛选对预测任务最有效的少数训练样本,但是计算代价会高。

朴素贝叶斯

以贝叶斯理论推导,保证每个样本都是独立的,在特征关联性比较强的分类任务表现不佳,但是擅长文本分类和垃圾邮件筛选。

K近邻(分类)

在分类样本的附近,以空间中距离最近的 K 个数值作为参考,根据K的不同导致我们会得到不同的结果;在训练的过程中是直接对图像进行分割的,没有训练参数这一环节,导致这种分类的消耗资源巨大,擅长直接做出决策。

决策树

一种针对非线性问题的解决方案,强调特征结点的排列顺序。常用的度量方式是信息熵和基尼不纯性。逻辑推理直观,可以清晰解释,无需考虑数据的标准化或者量化。属于有参数模型,但是花费时间更长。

集成模型(分类)

综和考虑多个分类器,通过投票采用少数服从多数的原则。因为增加了概率,具有不确定性;但是同时具有多个决策树使得集成模型拥有更好的性能和结果的稳定性。
随机森林分类器:即多棵决策树。但是每棵决策树的结点的不是原来那种以影响力作为优先排序的顺序排列出的,而是通过随机生成的。
梯度提升决策树:模型之间具有相关性。每一个后序模型都会提升性能,降低误差,通过多个决策树组合形成一个更强的决策树;作为工业界常用的基线系统,来对比新的模型是否比GBC的性能要好。
 

回归预测

线性回归器

Linear Regression:擅长高精度线性拟合,但是处理规模小。
SGDRegressor:擅长大数据(>= 10W)线性拟合,但是精度不如LinearRegression.
测试评价:MAE(平均绝对误差,Mean Absolute Error),MSE(均方误差Mean Squared Error,MSE),R-squared(SGDRegressor自带测试方法)三种。

支持向量机(分类)

利用少量的预测数值来去直接拟合线。同时可以修改内置的默认配置来获得更好的预测性能。
线性核函数
多项式核函数
径向基核函数

K近邻(回归)

同样不用训练参数,但可以修改K值距离。
平均回归(weights = “uniform”)
距离加权回归(weights=“distance”)

回归树

特征:回归树的叶子结点是连续型的数据,是一团数据训练出来的均值,而并非是具体的连续的预测值。
优点

  1. 树模型可以解决非线性问题。
  2. 不要求对特征标准化和统一量化;

缺点

  1. 搭建比较复杂,缺乏泛化力。
  2. 一些细微的变化也会造成结构的变化,稳定性差。
  3. 属于NP难问题,有限时间无法找到最优解,只能利用类似贪婪算法得到一些次优解,需要集成多个次优解找更高的最优解。

集成模型(回归)

耗费的时间最多,但是可以提供更好的表现和更好的稳定性,树多了就稳定了。
Random Forest Regressor(普通随机森林)
Extra Trees Regressor(极端随机森林):当构造树的分裂结点的时候,不会任意选取特征,而是先随机收集一部分特征,然后利用信息熵和基尼不纯性挑选最佳的结点特征。
Gradient Boosting Regressor(提升树模型):基准模型,最佳模型。

你可能感兴趣的:(机器学习竞赛)