机器学习系列(1)--最全算法概述(附案例)

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

1.线性回归


定义:一种回归模型,利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。损失函数常用平方损失,优化策略为损失函数最小化,常用梯度下降求解。

案例:家庭用电预测、波士顿房屋租赁

 

2.逻辑回归

定义:一种分类模型,是指在线性回归的基础上对其函数值进行sigmoid函数转换,其损失函数为最大似然,优化策略为似然函数最大化,常用梯度下降、牛顿法、拟牛顿法求解,广泛运用于线性二分类。

案例:

 

3.决策树

定义:一种树类模型,既可以用作回归又可以用作分类算法,通过纯度不断地划分节点,使特征变量差别最大,目的让样本数据归类到不同的分支中去,广泛运用于归纳推理。

案例:

 

4.支持向量机

定义:一种分类模型,寻找一个超平面来对样本进行分割,把样本中的正例和反例用超平面分开,优化策略是使间隔最大化,常用于线性分类,使用核技巧也可以用作非线性分类。

案例:

 

 

5.朴素贝叶斯

定义:一种概率分类模型,首先计算每个类别的概率,对每个特征属性计算所有划分的条件概率,最后相乘选出概率最大的为该类别。主要分为四大类:朴素贝叶斯(各特征变量之间独立),高斯朴素贝叶斯(特征值连续,服从高斯分布),伯努力朴素贝叶斯(特征值连续特征属性分布服从伯努力),多项式朴素贝叶斯(特征值离散,特征属性服从多项分布),广泛运用于分词模型。

案例:

 

6.集成学习

定义:一种将多个学习器组合在一起提高模型性能的集成算法,既可以用作分类模型,又可以用作回归模型,一般分为boosting(通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,代表是adaboost算法),bagging(通过重采样得到数据集,随机选取多个特征,串行多个基分类器组合成强分类器,代表是随机森林算法)两大类。

案例:

 

7.KNN聚类模型

定义:按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。

案例:

 

8.推荐系统

定义:利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。

案例:

 

 

 

 

你可能感兴趣的:(机器学习)