机器学习实战——1.机器学习基础

1.1何为机器学习
机器学习就是将无序的数据转换成有用的信息。
机器学习横跨计算机科学、工程技术和统计学等多个学科,需要多学科的专业知识。
1.2关键术语
机器学习实战——1.机器学习基础_第1张图片
1.3机器学习的主要任务
机器学习实战——1.机器学习基础_第2张图片
无监督学习的数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成有类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。
机器学习实战——1.机器学习基础_第3张图片
1.4如何选择合适的算法
选择实际可用的算法,必须考虑以下两个问题:一、使用机器学习算法的目的,想要算法完成何种任务,比如是预测明天下雨的概率还是对投票者按照兴趣分组;二、需要分析或收集的数据是什么。
首先考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量的类型,如果目标变量是离散的,则可以选择分类器算法;如果目标变量是连续型数值,则可以选择回归算法。
如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
其次需要考虑的是数据问题。主要了解数据的一下特征:特征值是离散的还是连续型变量,特征值是否存在缺失的值,各种原因造成缺失值,数据中是否存在异常值,某个特征发生的概率如何等等。充分了解数据特性可以缩短选择机器学习算法的时间。
1.5开发机器学习应用程序的步骤
机器学习实战——1.机器学习基础_第4张图片
1.6python语言的优势

  1. python的语法清晰
  2. 易于操作纯文本文件
  3. 使用广泛,存在大量的开发文档

1.7numpy函数库基础
机器学习算法涉及很多线性代数知识,在使用python构造机器学习应用时,会经常使用numpy函数库。
numpy矩阵与数组的区别:
numpy函数库中存在两种不同的数据类型(矩阵matrix和数组array),都可以用于处理行列表示的数字元素。虽然它们看起来很相似,但是在这两个数据类型上执行相同的数学运算可能得到不同的结果,其中numpy函数库中的matrix与MATLAB中的matrices等价。
调用mat()函数可以将数组转化为矩阵:randMat=mat(random.rand(4,4))
randMat.I:实现矩阵求逆的运算

你可能感兴趣的:(机器学习实战读书笔记,读书笔记,机器学习实战,1.机器学习基础)