机器学习

1. 什么是机器学习

历史数据中寻找规律,把规律用到对未来不确定场景的决策。规律=数学公式。

机器学习发展的原动力

  1. 从历史数据中寻找规律,把规律用到未来自动做出决策
  2. 用数据代替expert(因为专家决策有片面性主观性)
  3. 经济驱动,数据变现

业务发展历史

  1. 基于专家经验——>然后由程序员用if-else实现
  2. 基于统计,分析人员对统计数据进行分析(强烈依赖于分析人员的业务能力)
  3. 机器学习
  • 离线学习:跑个定时脚本,训练模型。例如:根据历史数据当天晚上训练好模型后以供第二天使用;
  • 在线学习:当用户发起一次请求,模型就在线学习一次,结合实时数据训练模型。

2. 生活中的机器学习

购物篮分析——关联规则;
用户细分精准营销——聚类
垃圾邮件识别——朴素贝叶斯
信用卡防欺诈——决策树
互联网广告——CTR预估
推荐系统——协同过滤

3. 数据分析和机器学习

数据分析 机器学习
处理的数据 交易数据(和钱有关);少量数据;采样分析 行为数据;海量数据;全量分析
解决的业务问题 报告过去的事 预测未来的事
技术手段 用户驱动(依赖于分析人员的经验技术) 算法+数据驱动
目标用户 公司高层 用户个体

4. 常用算法

算法分类

  1. 按照算法学习方式
    算法的目的是找出输入X和输出Y之间的关系。
  • 有监督学习:有用于训练的样本数据,样本数据中包含输入以及对应的输出
    根据样本数据训练得到一个最优模型(即为X和Y的关系),再根据这个模型将新的输入映射为对应的输出。
    例如:在人对事物的认识过程中,小时候被家长教这是鸟、那是鱼……这就相当于有输入和对应输出的样本数据。当我们见识多了,脑子里就慢慢得到了一些泛化的模型,这就是训练得到的函数。从而不需要大人在身边指点,我们也能分辨出来哪些是鸟、是房子。

  • 无监督学习:事先没有任何训练样本。
    例如:我们参观画展,事先对艺术一无所知,但欣赏完很多作品后,我们也能把他们分为不同的派别(例如朦胧派,写实派……,即使我们不知道什么是朦胧派、什么是写实派,但至少能把他们分成几类)。

  • 半监督学习

  1. 按照要解决的问题的类型
  • 分类与回归
  • 聚类
  • 标注
  1. 按照算法类似性
  • 生成模型
  • 判别模型
生成模型 判别模型
输出结果的形式 给出属于A/B/C类的概率,类似陪审团 通过给定函数判断Y/N,类似大法官裁决,非一即二

常见算法

机器学习_第1张图片
常见算法.png

机器学习_第2张图片
常见算法2.png

5. 机器学习解决问题的框架

  1. 确定目标
  • 明确业务需求
  • 准备数据
  • 特征工程(Feature Engineering):该部分工作对模型的最终效果影响很大
  1. 训练模型
  • 定义模型
  • 定义损失函数
  • 优化算法
  1. 模型评估
  • 交叉验证:将不同算法带入同一数据中,验证效果
  • 效果评估:评出几个算法之间的差别、效果

6.Demo

7. 参考文献

慕课网_初识机器学习-理论篇
聚类(序)——监督学习与无监督学习
机器学习常用算法总结

你可能感兴趣的:(机器学习)