回归、拟合、分类的基本概念、常见方法及应用场景

(1)回归:
回归:找数据点之间关系的分析方法就是回归。
回归算法是一种比较常用的机器学习算法,用来表示自变量X和因变量Y之间的关系。从机器学习的角度,构建一个算法模型来做属性X与标签Y之间的映射关系。回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。
最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。
通常假定随机误差的均值为0,方差为σ2(σ2﹥0,σ^2与X的值无关)。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差。
当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

常用算法:
1、Linear Regression Algorithm(线性回归) 
2、Local Weighted Regression(局部加权回归)
3、k-Nearest Neighbor Algorithm for Regression(回归k近邻)

应用场景:
1、房价预测
2、销售量预测
3、餐厅访客预测

(2)分类:
分类本质:给定一个对象X,将其划分到预定义好的某一个类别Yi中的算法
给定两组数据点:分别为A和B,其中A标记为圆圈;B标记为叉号;我们要做的就是选取一种函数可以将这两种数据分开,使得后续的数据可以明确的知道自己属于哪个组,这就是分类问题。

常用算法:

  1. Naive Bayesian Mode 朴素贝叶斯模型
    2.K Nearest Neighbors(KNN) K近邻
  2. Support Vector Machines(SVM) 支持向量机
  3. Decision Trees 决策树
  4. Boosting
  5. Random Trees 随机森林
  6. Neural Networks 神经网络

应用场景
1、O2O优惠券使用预测;
2、市民出行选乘公交预测;
3、待测微生物种类判别;
4、基于运营商数据的个人征信评估
5、商品图片分类;
6、广告点击行为预测;
7、基于文本内容的垃圾短信识别;
8、中文句子类别精准分析;
9 、P2P网络借贷平台的经营风险量化分析;
10、国家电网客户用电异常行为分析;
11、自动驾驶场景中的交通标志检测;
12、大数据精准营销中搜狗用户画像挖掘;
13、基于视角的领域情感分析;
14、监控场景下的行人精细化识别;
15、用户评分预测;
16、猫狗识别大战;
17、微额借款用户人品预测;
18、验证码识别;
19、客户流失率预测;
20、汽车4S店邮件营销方案;

(3)拟合

拟合:形象的说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。拟合的曲线一般可以用函数表示,根据这个函数的不同有不同的拟合名字。
拟合、插值和逼近是数值分析的三大基础工具,
它们的区别在于:
拟合是已知点列,从整体上靠近它们;
插值是已知点列并且完全经过点列;
逼近是已知曲线,或者点列,通过逼近使得构造的函数无限靠近它们。

拟合方法:
1、多项式拟合;
2、非线性最小二乘法拟合

应用场景:
建模分析,提取特征参数

你可能感兴趣的:(学习笔记,回归,分类,机器学习)