机器学习

机器学习 Machine Learning

机器学习与人工智能

小度和AlphaGo

图像识别是机器学习一个很重要的分支
语音识别 科大讯飞
自动驾驶 (Google 特斯拉)
医疗智能诊断
智能翻译 (拍照翻译 1图像识别 2自然语言处理 3翻译 Google翻译远远超过百度翻译 神经网络 一段话结合语境)
数据挖掘 eg:逛淘宝留下浏览记录

人工智能领航者

人工智能领航者

为什么机器学习人工智能这两年发展这么快?

  1. 大数据时代
    数据量特别特别大
    速度快 数据吞吐量非常大 能不能及时处理这些数据和公司的前途息息相关
    多样性 很多可以挖掘发展的
    价值 能不能从中挖掘到有用价值 不是取决于模型的优化 而且取决于数据量
  2. 硬件发展
    Google: GPU 为 tensorflow服务 神经网络
  3. 深度学习
    基于大数据时代应运而生的一门技术
  4. 大规模的并行计算
发展史

什么是机器学习

机器学习(machine learning): 是通过算法,使用历史数据和资料进行训练,训练完成后产生模型。未来当有新的资料的时候,我们可以使用训练产生的模型进行预测。
机器学习:特征(feature)和标签(label)
比如预测明天是否下雨。
特征:湿度,风向,风俗,季节,气压
标签:0:不会降雨;1:会降雨


人类类比机器
  • 监督学习(有标签)(Supervised learning):
    回归分析(regression)
    统计分类(classification): 二分类 多分类
  • 非监督学习(无标签)(Unsupervised learning):
    聚类(clustering)
    降维(dimension个 reduction)
    异常检测(anomaly detection)
  • 强化学习(Reinforcement learning)

机器学习之统计回归

回归分析

  • 预测输入变量与输出变量的关系
  • 输出变量是连续的
  • 一元回归与多元回归
    一元:一个变量
    多元:多个变量
  • 线性回归与非线性回归
    线性:最小二乘法
    非线性:核方法,树类方法
  • 算法:线性回归,支持向量机,树类算法,神经网络

机器学习之分类

分类问题

  • 输出变量是离散的
  • 输出变量的多少
    二分类、多分类
  • 精确率
  • 召回率
  • 算法:k近邻,感知机,朴素贝叶斯,决策树,逻辑回归,支持向量机,神经网络

风险评估:根据客户情况,决定是否贷款
图像识别:分析图像,判断图像中是否有人脸出现
垃圾邮件检测:判断一封邮件是否为垃圾邮件
智能医疗诊断:判断是否为恶性肿瘤

机器学习之聚类

聚类:把相似的对象通过静态分类的方法分成不同的组别或更多的子集。同一个子集的成员都有相似的属性。
算法:K均值,高斯混合聚类,密度聚类,层次聚类
商业:定义客户类型,刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
生物:动植物分类对基因进行分类,获取对种群固有结构的认识。
保险:聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。
社交:社交网络的挖掘

机器学习之推荐

推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:

  1. 将与用户购买的内容近似的物品推荐给用户。对物品贴上多个标签
  2. 基于用户相似度的推荐,则是将与目标用户兴趣相同的其它用户购买的东西推荐给目标用户

机器学习流程:

数据提取(ETL) >> 数据清洗(Feature cleaning) >> 特征工程(Feature engineering) >> 训练模型(Training model) >> 验证模型优化模型(validation)

  • 机器学习并不是万能的,但没有机器学习是万万不能的!
  • 数据清洗是实现机器学习算法的必要前提
  • 特征工程是提升模型强度的关键因素
  • 多种方法让机器学习的算法泛华能力增强

机器学习之大数据

机器学习:利用数据价值的最核心技术!
数据量越大 准确率越高
Hadoop & Spark echosystem
把数据切片分成很多小部分,分到单机中处理做并行运算。
数据拷贝成3份或多份存在硬盘里,保证数据不丢失。

机器学习之数据科学之路

数据科学

数理统计

  • 概率论与统计:假设检验,概率分布,贝叶斯理论,极大似然估计....
  • 线性代数:矩阵的操作
  • 微积分:极值,优化问题,偏导数,梯度....
    编程语言与算法
  • 编程语言:R & Python(C++,Java...)
    数据分析和挖掘:Python,R
    数据工程师:Java,Python
    钻研算法框架:C++,Python
  • 数据结构
  • 算法
  1. 巩固数理统计基础。熟悉机器学习的算法知识
  2. 熟练掌握至少一门编程语言
  3. 学习数据结构与算法相关知识,锻炼编程能力
  4. 积极参加数据科学竞赛(如kaggle)和数据科学相关的项目磨练自己

机器学习 - 理解与实战

机器学习

监督学习

  • 分类问题:输出位离散值的问题
    明年会不会涨工资
    能不能申请到想去的学校
    中国足球队能不能赢得比赛
    这张图片是什么
  • 回归问题:输出位连续值的问题
    明年的工资是多少
    明年的比特币价格是多少
    活动会有多少人来
    一切模型都是错的,但是有些模型有用

分类问题

问题描述:预测明年能不能申请到想去的学校

  • 特征(条件):
    成绩(GPA,排名)
    本科/高中学校
    科研成果/课外活动
    TOEFL/GRE/SAT/GMAT分数
  • 标记(结果)
    拿到了
    没拿到


    线性回归——系数

    logistic回归

    过拟合

    交叉验证

    随机森林

    评价分类器好坏

回归问题(线性回归)

image.png

无监督学习

聚类学习

k-means算法

  1. 随机选取k个中心点,代表k个类别
  2. 测量每个数据到中心点的距离,并归类到距离最近的中心点对应的类别上
  3. 对每个类别的数据,计算出平均位置,更新k个中心点
  4. 重复2~3步骤,直到系统收敛

神经网络

神经网络

卷积神经网络

AlphaGo算法

深度学习的发展与应用

  • 深度神经网络
  • 深度学习的应用
  • 实际应用案例


    M-P神经元模型

    神经网络简介

  • 1943 McCulloch-Pitts神经元模型
  • 1956 感知机(Perceptron) [(第一个可以学习的模型) (线性)]
  • 1986 分布式表示 -- 深度学习之父 hinton
  • 1986 反向传播算法
  • 1994 长短记忆网络
  • 2006 深度信念网络 -- hinton
  • 2007 卷积神经网络
优化深度神经网络
深度学习网络
卷积神经网络

解决图片识别问题

卷积
循环神经网络

h 降低参数 防止过拟合

长短记忆网络(LSTM)
门循环网络
生产判别式网络

深度学习的应用:


图片识别
语音识别
机器翻译
图片生成
物体检测
视觉搜索
航拍图片分析

海狮的种类,成年幼年等
农作物的期货,收成
露天停车位数量 - 沃尔玛销量

聊天机器人

客服
人工智能用在没有创意的格式化的工作上 实现自动化

如何学习深度学习

  • 数学
    线性代数
    微积分
    凸优化/计算方法
    概率论
  • 机器学习
  • 编程
    算法和数据结构
    Python
  • 深度学习
    Deep Learning,lan Goodfellow,Yoshua,Bengio,etc.
    论文

实战数据挖掘与机器学习

数据分析与数据科学的职业发展

数据相关职业岗位解析

  • 数据分析师
    市场分析师,产品经理,数据分析师
  • 数据科学家
    数据科学家,数据科学算法工程师
  • 数据工程师
    大数据工程师,数据工程架构师
    要求

职业能力要求

学历
硬技能

Python SQL(数据库的操作)

软实力
关于数据科学竞赛的一点思考
业务理解
要求表格

学习数据分析和数据科学的要点

学会分析商业需求,
以项目实践为手段,
熟练应用已有工具,
锻炼持续学习能力。

推荐书籍:数据科学入门, 利用Python进行数据分析
pd.DataFrame?
Google
百度
Stackoverflow
知乎

  • 动手实际操作
    熟悉工具使用
  • 着重项目实践
    能实习尽量实习
    参加数据竞赛
  • 与人为善,与人为伴
    锻炼沟通与表达能力
    团队协调能力
    持续学习能力

UCI数据库
Kaggle数据库 (Kaggle:全球最大机器学习算法竞赛平台 数据量特别大)
天池 (阿里)
DataCastle 成都一家公司创建的竞赛平台 信贷风险

最后,献上福利:


Data Analysis.png

你可能感兴趣的:(机器学习)