机器学习实践应用

简介

人工智能

人工制造出来的系统所表现出来的智能。人工智能的核心问题包括推理、知识、交流、感知、移动和操作物体的能力。

机器学习

通过算法,是机器能从大量历史数据中学习到规律,从而对新的样本做出智能识别或对未来做预测。

深度学习

机器学习的新领域。深度——是因为机器学习只是千层的学习,主要是基于概率、矩阵等知识而得出的结论。而深度学习所涉及的概念比较复杂,包括人工神经网络的研究等。

机器学习概述

机器学习概述

背景

图灵

发展现状

数据现状

Facebook
瓶颈:

  • 数据产生和数据收集的瓶颈
  • 采集到的数据和能被分析的数据之间的瓶颈

算法现状

模型的训练与识别、语义分析、文本情感分析、图像识别技术。

机器学习的基本概念

机器学习的流程

  1. 场景解析(想清楚业务逻辑)
  2. 数据预处理(数据的清晰工作,归一化、标准化)
  3. 特征工程
  4. 模型训练
  5. 模型评估
  6. 离线/在线服务

数据源结构

  1. 结构化数据(纯数字)
  2. 半结构化数据(带有字符串)
  3. 非机构化数据

算法分类

  1. 监督学习(进入算法的训练数据样本都有赌赢的期望值也就是目标值,进行及其学习的过程实际上就是特征值和目标值的映射过程——心脏病,海关问题。K近邻、朴素贝叶斯、决策树、随即森林、GBDT和支持向量机,回归算法:逻辑回归、线性回归。解释一下回归和分类的区别)

分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测; 回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。

  1. 无监督学习(训练样本不依赖达标数据的机器学习——聚类场景问题,因为确实目标列,能做的事情就只剩下对比不同样本间的距离关系。K-Means、DBScan)
  2. 半监督学习(最近几年比较流行,获得达标数据是非常耗费资源的,但是无监督学习对于解决分类和回归这样的场景问题又有一些难度,部分达标、部分给算法学习。标签传播算法)

你可能感兴趣的:(机器学习实践应用)