按机器学习系统的含义:是指能够在一定程度上实现机器学习系统
机器学习按对人类学习的模拟方式:符号主义学习、统计学习、连接主义学习等。
机器学习任务:1、分类、回归、聚类 2、降维、去噪 3、机器翻译、异常检测
机器学习基本流程:数据处理、训练、验证、预测
数据集划分(判断是哪个数据集):训练集。用于训练模型。验证集。用于调整模型。测试集。用于评估模型
模型效果描述(给出意义描述写术语):拟合是模型与训练数据和测试数据具有较好的拟合性、过拟合是指的是模型出现拟合过度的情况。过拟合表现为模型在训练数据中表现良好,在预测时却表现较差、欠拟合是欠拟合是指在训练数据和预测结果时,模型精确度均不高的情况。
机器学习三种类型(区分分类和回归、聚类和降维概念):
模型性能描述
数据预处理(3个给定义写术语):数据清理、数据转换、数据压缩
数据清洗( Data Cleaning ) 主要是通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理”数据。自然数据中的异常值等问题可能会影响机器学习模型并产生有偏差的结果。常见问题数据如下:
+ 缺失值:它指的是现有数据集中某个或某些属性的值是不完全的,可能直接导致算法无法直接分析数据。
+ 离群值:它指在一份数据中,与其他观察值具有明显不同特征的那些观察值,可能会使数据的分布失真影响模型判断。
数据转换:数据转换(Data Transformation)就是修改数据的表示形式,使其符合机器学习模型的输入要求,并使机器学习模型的优化算法更容易生效。
数据压缩:数据压缩是一种有助于减少数据集的数据量或维数或两者兼得的技术,从而使模型的学习过程更加有效,并帮助模型获得更好的性能,防止过度拟合问题并修复不均匀的数据分布
给定义写术语:它根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。
三大步骤:算距离、找邻居、做分类
集成学习给定义写术语: 集成学习是指为解决同一问题,先训练出一系列个体学习器(或称弱学习器),然后再根据某种规则把这些个体学习器的学习结果整合到一起,得到比单个个体学习器更好的学习效果
集成学习两大基本问题:一个是个体学习器的构造,另一个是个体学习器的合成。
集成学习分类:Boosting方法和Bagging方法两大基本类
给定义写术语:决策树分类方法采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
常用决策树算法:ID3、C4.5、CART(区分概念,谁取最大或最小)
ID3:按信息增益划分
C4.5:增益比例
CART:基尼指数
K-means、K-中心点、DBSCAN
人工神经网络给定义写术语:人工神经网络是一种对人工神经元进行互联所形成的网络,它是对生物神经网络的模拟。反映的是神经元的饱和特性
常见网络:深度卷积神经网络、深度波尔兹曼机、深度信念网络
深度神经网络给定义写术语:深层神经网络也叫深度神经网络(DNN),通常是指隐含层神经元不少于2层的神经网络,目前可做到数百层甚至更多
最大池化、最小池化、均值池化
式中;n是网络中的神经元个数,wij 是神经元i和神经元 j之间的连接权值,且有wij = wji ; vi和 vj分别是神经元i和神经元 j 的输出;θi 是神经元i的阈值。
卷积操作
池化操作
卷积、池化操作所得特征图的尺寸
卷积:
特征矩阵的行数和列数:假设数据矩阵大小为M×N,卷积核大小为m×n,填充的圈数为p,水平方向和竖直方向的步长分别为 d 1 , d 2 d_1,d_2 d1,d2,则有特征矩阵的行数和列数分别为:
池化
M×N,池化窗口大小为m×n =》 R = M / m, C = N / n
试根据训练集:
D = ( ( 1 , 2 ) T , 1 ) , ( ( 3 , 3 ) T , 1 ) , ( ( 2 , 1 ) T , − 1 ) , ( ( 5 , 2 ) T , − 1 ) D={((1,2)^T,1),((3,3)^T,1),((2,1)^T,-1),((5,2)^T,-1)} D=((1,2)T,1),((3,3)T,1),((2,1)T,−1),((5,2)T,−1)构造一个感知机模型,学习率α=1。
【解】已知感知机模型的具体形式为: f ( X ) = s g n ( W T X ) f(X)=sgn(W^T X) f(X)=sgn(WTX)
s g n ( t ) = { 1 , ( t > = 0 ) − 1 , ( t < 0 ) sgn(t)= \left\{ \begin{array}{ lr } 1, &(t>=0) \\ -1, &(t < 0)\\ \end{array} \right. sgn(t)={1,−1,(t>=0)(t<0)
其中 W = ( b , w 1 , w 2 ) T , X = ( 1 , x 1 , x 2 ) T W=(b,w_1,w_2 )^T,X=(1,x_1,x_2 )^T W=(b,w1,w2)T,X=(1,x1,x2)T。使用数据集D构造感知机模型的具体步骤如下:
(1)初始化参数向量 W = ( 0 , 0 , 0 ) T W=(0,0,0)^T W=(0,0,0)T
(2)随机选择一个样本 ( ( 2 , 1 ) T , − 1 ) ((2,1)^T,-1) ((2,1)T,−1)输入初始模型,求得 f ( X = ( 2 , 1 ) T ) = s g n ( 0 ) = 1 ≠ − 1 f(X=(2,1)^T )=sgn(0)=1≠-1 f(X=(2,1)T)=sgn(0)=1=−1,该样本未被感知机模型正确分类,使用如下公式更新模型参数:
w i = w i + α y i x i , b = b + α y i w_i=w_i+αy_i x_i, b=b+αy_i wi=wi+αyixi,b=b+αyi
计算得到新的参数向量 W = ( − 1 , − 2 , − 1 ) T W=(-1 ,-2,-1)^T W=(−1,−2,−1)T,获得的感知机模型为:
f ( X ) = s g n ( − 2 x 1 − x 2 − 1 ) f(X)=sgn(-2x_1-x_2-1) f(X)=sgn(−2x1−x2−1)
将数据集D中样本均输入更新后的感知机模型中,若存在样本被错误分类,则根据步骤(2)中公式进行参数更新,直至D中所有样本均分类正确时结束算法并输出模型。