关于机器学习——绪论(IMOOC)
课程来源:https://www.imooc.com/learn/717 部分为课程PPT,侵权删
笔记整理如下:
机器学习十大基本算法: https://blog.csdn.net/yg970514/article/details/79310723
即:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
机器学习共包含三大要素:学习主体、历史数据、规律。
如何从数据中寻找规律:观察数据、用模型刻画(拟合)规律
1.从历史数据中找出规律,把这些规律用到对未来自动做出决定
2.用数据代替expert(专家)
3.利用经济驱动、数据变现
购物篮分析:“啤酒 + 尿片——沃尔玛”——数据挖掘算法
案例:由于美国的超市大多数在镇子上,居民分布较散,所以很多人会选择一周去超市进行一次家庭采购。并且,经过一系列数据统计后,发现购买婴儿尿片的人,有很大几率会购买啤酒。这是由于一般情况下,家庭中负责采购的人员会是男士,所以超市尝试将两个捆绑销售(即套餐等),促进消费。即关联规则。
用户细分精准营销:移动电话卡的不同用户定位——不同用户不同套餐
通信集团通过划分学生、白领、出差人群、老人等人群,设置一系列的电话套餐,精确营销。
垃圾邮件(朴素贝叶斯)
信用卡欺诈——风险识别(决策树)
互联网广告——顺序排列问题(点击率预估)
推荐系统(协同过滤)
情感分析、实体识别(NLP)
图像识别——深度学习
还有:语音识别、个性化医疗、自动驾驶、人脸识别、手势控制、机器人等等多个方面
交易数据 vs 行为数据(ML)
少量数据 vs 海量数据(ML)
采样分析 vs 全量分析(ML)
主要因为:数据分析主要针对于:个别维度的某一指标或多个有限指标,即只需要关注其交易数据,比较单一,数据量大时只能采取采样分析的方法。
而机器学习由于利用机器进行高速运算,并且随着半导体行业的不断发展,其算力将快速发展。其可对交易数据外,如用户浏览记录、用户搜索记录、用户活跃时间等行为数据进行监督存储,进行全量分析。更好发掘用户潜在需求。
即:数据分析主要针对于过去发生的事情进行总结,分析趋势。而机器学习则更多的是预测未来发生的事
数据分析常为用户驱动,利用数据分析师的交互式分析处理数据。而机器学习则是通过电脑程序自动处理数据,进行信息挖掘。
分析师(主要针对公司高层等客户) 机器学习主要取决于数据(质量决定结果)+ 算法
特征 |
数据分析 |
机器学习 |
信息请求动机 |
企业里正在发生的事情 |
基于正在发生的事情预测未来 |
数据力度 |
汇总数据 |
明细数据 |
维度数量 |
少量有限维度(个别类) |
大量维度 |
维度属性数量 |
少量 |
很多 |
数据集大小 |
小 |
大 |
分析方法 |
用户驱动 交互式分析
|
数据驱动 自动进行知识发掘 |
分析技术 |
多维,多视角分析 |
多维,多视角分析 |
状态 |
几十年已成熟、但落伍 |
发照阶段,部分成熟,趋势 |
算法分类(1):
有监督学习、无监督学习(聚类)、半监督学习
算法分类(2):
分类与回归
聚类
标注
算法分类(3):尤为重要!(训练思想不同)
生成模型
判别模型
详见blog(机器学习十大基本算法): https://blog.csdn.net/yg970514/article/details/79310723
相关算法拓展:
C4.5 K-Means SVM AdaBoost KNN 贝叶斯
FP—Growth LDA 逻辑回归 推荐算法 RF、GBDT
深度学习
业务需求、数据、特征工程
(数据的质量相当于是天花板的高度,而算法决定你能跳多高。)
定义模型、定义损失函数、优化算法
交叉验证、效果评估
接下来,会有一些机器学习相关笔记。作为小白,希望和大家共同学习。