机器学习概述及流程

概述

一、目标

       1、掌握机器学习基础环境安装
       2、掌握常用的科学计算库对数据进行展示、分析

二、人工智能三要素

1、数据
2、算法
2、算力:CPU适合I/O密集型程序,GPU适合计算密集型和易于并行的程序。

三、人工智能主要分支

1、计算机视觉(CV)
2、自然语言处理(NLP):文本挖掘/分类、机器翻译、语音识别
3、机器人

四、机器学习工作流程简介

机器学习概述及流程_第1张图片
从数据中自动分析获得模型,再利用模型对未知数据进行预测。

1、获取数据
2、数据基本处理
3、特征工程
4、机器学习(模型训练)
5、模型评估

机器学习概述及流程_第2张图片

具体流程详解

一、数据构成

数据集:
1、一行数据称为样本
2、一列数据称为特征
3、有些数据有目标值(标签值)
数据类型构成:
1、特征值+目标值(可以是连续的或离散的)
2、只有特征值,没有目标值
数据分割:
机器学习数据一般会划分为两部分
1、训练数据:用于训练、构建模型
2、测试数据:用于评估模型是否有效
ps:划分比例:训练集:70% 80% 75%

二、数据基本处理

对数据进行缺失值、去除异常值等处理

三、特征工程

**特征工程:**使用相关知识及技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。
内容:
1、特征提取:将任意数据转换为可用于机器学习的数字特征。
2、特征预处理:通过转换函数将特征数据转换成更加适合算法模型的特征数据的过程。
3、特征降维:在某些条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
ps:数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。

四、机器学习(训练模型)

机器学习:选择合适的算法对模型进行训练
算法:
1、监督学习*:输入数据由特征值目标值组成。若输出为连续的值即为回归,离散的值即为分类
eg:
回归:预测房价
分类:判断肿瘤是否为良性
2、无监督学习:输入数据仅有特征值,无目标值。需要根据样本之间的相似性对样本集进行类别划分。
3、半监督学习:训练集同时包含标记样本数据和未标记样本数据。
4、强化学习:实质是自动进行决策,并且可以连续做出决策。目标就是为了获得最多的奖励。
主要元素:
agent:代理体
action:行动
reward:奖励
environment:环境
observation:观察情况
监督学习与强化学习区别:
机器学习概述及流程_第3张图片

对比:

机器学习概述及流程_第4张图片

五、 模型评估

对训练好的模型进行评估。

按照数据集目标值不同,可分为分类模型评估回归模型评估

1、分类模型评估
评价指标:准确率、精确率、召回率、F1-score、AUC指标等。
2、回归模型评估
评价标准:均方根误差(RMSE)、相对平方误差(RSE)、平均绝对误差(MAE)、相对绝对误差(RAE)
ps:均方根误差(RMSE):仅能比较误差是相同单位的模型。

机器学习概述及流程_第5张图片
3、拟合
评价训练好的模型的表现效果,效果可分为两类:过拟合欠拟合
(1)欠拟合:特征过少,区分标准太粗糙。
(2)过拟合:特征过多,表现过于优越,在测试中表现不佳。

你可能感兴趣的:(机器学习,人工智能,机器学习,python)