机器学习---基本概念

1 机器学习分为:监督学习,非监督学习

区别:数据有没有标签。

监督学习 : D =(X,y)
X 代表样本的特征。特征:用一些信息来表达样本
y 代表标签,如文本主题,情感类别等
任务: 学习出 X -> y 的关系。
模型选择依据, 关系线性与否等等
很多问题都属于监督学习的范畴。 也是主要学习的重点。

无监督学习: D = (X)
任务: 寻找 X 中的特征或者规律。
大量的样本,通过算法分析样本内部性质 ==> 分析型工作,几大类,适用于营销环境。
聚类,kmeans等

other: 强化学习。 如 AlphaGo。

2 监督学习的例子

人脸识别
语音识别
主题分类
目标检测
金融风控
情感分析
自动驾驶

3 无监督学习的例子

聚类 --> 样本归类
相似度高的样本规成一类。
经典案例(个性化营销):按兴趣爱好进行用户分层。
K-means、 PCA降维…

4 常用的机器学习算法

监督学习:线性回归、逻辑回归、朴素贝叶斯、决策树、随机森林、SVM、神经网络
无监督学习:PCA、K-means、GMM、LDA…

线性回归:解决回归问题
逻辑回归:解决分类问题,建立在线性回归基础上,所以还是属于线性模型
朴素贝叶斯:适合文本分类问题
决策树:树状形式,贴合潜意识
随机森林:使用多棵决策树一起做决策,同样问题交给很多专家,然后将它们的答案整合起来
SVM:机器学习中稍难的算法,最短的距离最大化实现
神经网络:深度学习的一个最根本的基础,从感知机算法开始

PCA:经典降维算法,高维数据映射到低维空间 ==> 降噪,去除没用信息,数据可视化
K-means:样本聚类,发现类似的点聚到一起分析
GMM:跟K-means相关,K-means是GMM的特例,K-means假设一个物体只属于一个类。
LDA:主题模型,抽取主题特征时经常使用

GBDT:梯度提升树 mark:https://blog.csdn.net/zpalyq110/article/details/79527653
XGBoost :Extreme Gradient Boosting. mark: https://blog.csdn.net/moledyzhang/article/details/79533808

5 回归与分类问题

区别:输出不同;
回归输出是连续性数值,如温度、身高、气温…
分类输出是定性输出,如阴晴、好坏…
类别没有大小关系存在
经典分类问题:图像识别,文本分类

6 特征与标签,样本

特征:描述数据的具体属性、信息;
标签:预测值
样本:每一组特征和标签的组合。

7 训练数据、验证数据、测试数据

训练数据:用来训练模型的数据,构建模型。
验证数据:用来评估训练过程中模型性能的数据,辅助模型构建,可重复使用。
测试数据:用来评估模型的数据,只在最后模型检验时使用,用于评估模型的准确率。
一般来说,验证数据的准确率如果高于训练数据,说明训练的模型欠拟合;反之,过拟合。

8 机器学习建模流程

(1)Data source:收集数据的策略,数据决定模型准确度,非常关键
(2)数据预处理:降噪,大量不一致,字段不对齐,非常脏的活,但尤其重要。 大量精力
(3)特征工程:意味着从样本中提取有价值的记号,又要尽量的保证特征之间的相对独立性;
不同应用场景设计的特征时不同的。大量精力。50-60%时间。
(4)建模:特征工程之后每个数据转换成了向量/矩阵/张量,可直接作为模型输入。
调参工作,使模型达到最优效果。
改造模型再调参。
(5)验证:视模型效果,决定是否回炉。
选择适用于该场景的评估指标:准确率,AUC,FS,KS值…
(6)上线/部署:评估指标OK才上线。

热点:能否跳过特征工程,直接到建模的阶段?
直接跳过特征工程的方法叫端到端的方法。这种方法基本集中在深度学习领域中,如语音识别、图像识别。
这种方法并不适合所有应用场景。

9 学习来源

http://aijiaoai.greedyai.com

你可能感兴趣的:(机器学习,基本概念,算法)