python机器学习 | 入门介绍

最近在接触机器学习这一块的内容,不知道能学到哪个程度。先简单地介绍它到底是什么?

python学习入门介绍

  • 1 机器学习基本介绍
  • 2 机器学习分类
  • 3 机器学习模型评估

1 机器学习基本介绍

(1)定义:机器学习是从数据中自动分析获取模型,并利用模型对未知数据进行预测。
python机器学习 | 入门介绍_第1张图片
(2)工作流程
通常可以分为下面这几个步骤:
搜集数据–数据进行基本处理–利用训练集提取特征(特征工程)–利用训练集机器学习–使用预测数据集模型评估
python机器学习 | 入门介绍_第2张图片
1)获取数据:
数据来源:爬虫、数据库等等
数据类型:有目标值+连续(如房价、身高等)、有目标值+离散(如次数、频率等)、无明确目标值(分类)
2)数据处理:满足完整性(是否存在缺失值)、全面性、合法性(合理性)、唯一性
3)数据集分割:一般将数据划分为训练集和测试集(比例有:75%:25%、80%:20%、70%:30%等)
4)特征工程:基于学习项目的特点提取特征,使得特征能够在机器学习中发挥更强作用,通过需要一定的专业背景知识和技巧处理数据。一般包括如下步骤:
a)特征提取:将文本信息转为计算机可读懂的数字
b)特征预处理:通过⼀些转换函数将特征数据转换成更加适合算法模型的特征数据过程
c)特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到⼀组“不相关”主变量的过程

举个例子,区分红细胞和白细胞
python机器学习 | 入门介绍_第3张图片
python机器学习 | 入门介绍_第4张图片

2 机器学习分类

(1)监督学习(Supervised learning)
监督学习简单理解就是有目标值,主要分为回归问题与分类问题。
回归问题通常是找到合适的拟合函数
python机器学习 | 入门介绍_第5张图片
分类问题:通常是找到合适的分类函数,常用算法有K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

python机器学习 | 入门介绍_第6张图片

(2)无监督学习(Unsupervised learning)
无监督学习意味着输入数据没有被标记,也没有确定的结果(无具体目标值)。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。
聚类算法:K-means、PCA降维

(3)半监督学习(Semi-Supervised learning)
半监督学习就可以简单理解为⼀部分数据有目标,而⼀部分数据无目标。主要使用于监督学习效果不能满足需求时,就使用半监督学习来增强学习效果。

(4)强化学习(Reinforcement learning)
增强学习主要⽤来自动进行决策,并且可以做连续决策。也就是说,整个过程都是⼀个动态的,上⼀步数据的输出是下⼀步数据的输入

3 机器学习模型评估

模型评估是模型开发过程不可或缺的⼀部分。它有助于发现表达数据的最佳模型和所选模型将来⼯作的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估

  • 分类模型评估
    注重准确率、精确率、召回率、F1-score、AUC指标
    python机器学习 | 入门介绍_第7张图片
    在这里插入图片描述
  • 回归模型评估
    包括均方根误差(Root Mean Squared Error,RMSE)、相对平方误差(relative squared error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(relative absolute error,RAE)。

(1) 均方根误差(Root Mean Squared Error,RMSE):⼀个衡量回归模型误差率的常⽤公式。但是,它仅能比较误差是相同单位的模型。(p是预测值,a是真实值)
python机器学习 | 入门介绍_第8张图片

(2)相对平方误差(relative squared error,RSE):可以比较不同单位的模型
python机器学习 | 入门介绍_第9张图片
(3)平均绝对误差(Mean Absolute Error,MAE):与原始数据单位相同,它仅能比较误差是相同单位的模型。量级近似与RMSE,但是误差值相对小⼀些。
python机器学习 | 入门介绍_第10张图片
(4)相对绝对误差(relative absolute error,RAE):可以比较误差是不同单位的模型
python机器学习 | 入门介绍_第11张图片

模型评估呈现的是拟合的结果,最优的拟合是恰好拟合。然而可能会出现过拟合和欠拟合两种情况。

过拟合:由于特征过于细化等原因,导致模型单纯局限(适合)于训练集

相反,欠拟合就是特征过少,导致模型评估不准确。

你可能感兴趣的:(机器学习,python)