1、机器学习方法包括模型、学习准则、优化算法三大基本要素
2、损失函数用于量化模型预测和真实标签之间的差异,常用的损失函数包括交叉熵损失函数、平方损失函数、绝对值损失函数
3、常用的神经网络结构有前馈神经网络、卷积神经网络、循环神经网络
4、在神经网络的训练中常采用反向传播来高效计算梯度
5、卷积神经网络是一种具有局部连接、权值共享特性的深层前馈神经网络
6、一般卷积网络一般由卷积层、池化层/汇聚层、全连接层交叉堆叠而成的前馈神经网络
7、卷积神经网络三大结构特性局部连接、权值共享、汇聚
8、卷积神经网络的原理局部性、相同性、不变性
9、长短记忆网络(LSTM)通过引入门口机制解决RN网络的梯度消失或爆炸问题
10、LSTM网络中包含遗忘门、输入门、输出门控制信息传递
11、无监督学习问题一般可以分为无监督特征学习、概率密度、聚类三大类
12、无监督特征学习一般用于降维、数据可视化、监督学习的前期预处理任务
梯度下降是一种优化算法,思想是沿着目标函数梯度的方向更新参数以达到目标函数的极值。梯度下降是深度学习网络中最常用的优化算法。
反向传播是梯度下降在深度网络上的具体实现。
机器学习是指从有限的观测数据中学习出具有一般性规律,并利用这种规律对未知数据进行预测的方法。
人工智能是让机器具有人类的智能。
深度学习是机器学习的一个子问题,主要目的是从数据中学习导有效的特征表示。
1、 l e a r n i n g r a t e : learning \ \ rate: learning rate:学习率
2、 l e a r n i n g r a t e d e c a y : learning\ \ rate \ \ decay: learning rate decay:学习率变化幅度
3、 w e i g h t d e c a y : weight \ \ decay: weight decay:损失函数的惩罚项(正则化项),常用的惩罚项是所有权重的平方和乘以一个衰减常量(这个衰减常量就是weight decay),用来惩罚大的权值.所以我们平时优化的函数叫做目标函数,(目标函数=损失函数+惩罚项).
4、迭代次数
5、权重初始值
回归:均方误差损失函数
分类:交叉熵损失函数
欠拟合:方差低,偏差高
神经网络是非线性模型
常用的神经网络有:前馈神经网络、卷积神经网络、循环神经网络
卷积神经网络是一种具有局部连接、权值共享等特性的深层前馈神经网络
(局部连接和权值共享
输入 x ∈ R M ∗ N ∗ D x\in R^{M*N*D} x∈RM∗N∗D,输出为 y ∈ R M ‘ ∗ N ‘ ∗ P y\in R^{M^`*N^`*P} y∈RM‘∗N‘∗P的卷积层中,每一个输出特征都需要 D D D个卷积核以及一个偏置,假设每个卷积核的大小为 U ∗ V U*V U∗V,那么共需要 P ∗ D ∗ ( U ∗ V ) + P P*D*(U*V)+P P∗D∗(U∗V)+P个参数
R ( W ) = 1 2 ∑ n = 1 N ( y ( n ) − w T x ( n ) ) 2 = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 R(W) = \frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-w^Tx^{(n)})^2 = \frac{1}{2}||y-X^Tw||^2 R(W)=21∑n=1N(y(n)−wTx(n))2=21∣∣y−XTw∣∣2
1)过滤式方法:不依赖具体机器学习模型的特征选择方法
2)包裹式方法:使用后续机器学习模型的准确率作为评价来选择特征子集的方法
特征抽取是构造一个新的特征空间,并讲原始特征投影在新的空间得到新的表示,即 x ‘ = W x x^`=Wx x‘=Wx
混淆矩阵 | 预测为真 | 预测为假 |
---|---|---|
真实为真 | TP | FN |
真实为假 | FP | FP |
1、准确率: A c c u r a c y = T P + F P T P + F N + F P + T N Accuracy=\frac{TP+FP}{TP+FN+FP+TN} Accuracy=TP+FN+FP+TNTP+FP
2、错误率: E r r o r R a t e = F P + F N T P + F N + F P + T N Error\ Rate=\frac{FP+FN}{TP+FN+FP+TN} Error Rate=TP+FN+FP+TNFP+FN
3、精确率/查准率: P e r c i s i o n = T P T P + F P Percision=\frac{TP}{TP+FP} Percision=TP+FPTP
4、召回率: R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP
5、F值: ( 1 + β ) P r e c i s i o n ∗ R e c a l l β 2 ∗ P r e c i s i o n + R e c a l l (1+\beta)\frac{Precision*Recall}{\beta^2*Precision+Recall} (1+β)β2∗Precision+RecallPrecision∗Recall
1、联系:线性回归+sigmoid函数=逻辑回归
2、区别:
(1)功能不同:
线性回归是做回归的,逻辑回归是做分类的。
(2)参数求解方法不同:
线性回归是用最小二乘法求解参数,逻辑回归是用梯度上升法求解参数。
PCA可学习算法是指该学习算法能够在多项式时间内从合理数量的训练数据中学习到一个近似正确的 f ( x ) f(x) f(x)
PCA的两个特性:
1、近似正确
2、可能
激活函数是为了增强网络的表示能力和学习能力
激活函数需要满足三个特性:
1、连续并可导的非线性函数
2、激活函数及其导函数尽可能简单
3、激活函数的导函数的值域在一个合适的区间
常用的激活函数:
1、 L o g i s i t i c Logisitic Logisitic函数: σ ( x ) = 1 1 + e x p ( − x ) \sigma(x) = \frac{1}{1+exp(-x)} σ(x)=1+exp(−x)1 导数: σ ( x ) ‘ = σ ( x ) ( 1 − σ ( x ) ) \sigma(x)^`=\sigma(x)(1-\sigma(x)) σ(x)‘=σ(x)(1−σ(x))
2、 T a n h Tanh Tanh函数: t a n h ( x ) = e x p ( x ) − e x p ( − x ) e x p ( x ) + e x p ( − x ) tanh(x)=\frac{exp(x)-exp(-x)}{exp(x)+exp(-x)} tanh(x)=exp(x)+exp(−x)exp(x)−exp(−x) 导数: t a n h ( x ) ‘ = 1 − t a n h ( x ) 2 tanh(x)^`=1-tanh(x)^2 tanh(x)‘=1−tanh(x)2
3、 R e L U ReLU ReLU函数: r e l u ( x ) = m a x ( 0 , x ) relu(x)=max(0,x) relu(x)=max(0,x) 导数: r e l u ( x ) = 1 ( x > 0 ) relu(x)=1(x>0) relu(x)=1(x>0)
联系:都是将输入数据做了一个映射输出
区别:线性回归模型能拟合直线,但不能拟合曲线;前馈神经网络是非线性模型,可以拟合曲线。
联系:循环神经网络在前馈神经网络的基础上增加了从隐藏层到隐藏层的反馈连接。
区别:前馈神经网络的每次输入都是独立的,即网络的输出只依赖当前的输入,所以它难以处理时序数据。而在循环神经网络中,通过使用带自反馈的神经元,能够处理任意长度的时序数据。
L e N e t − 5 : LeNet-5: LeNet−5:
优点:在手写字符识别领域取得了成功。
缺点:难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求;过拟合问题使得 LeNet-5的泛化能力较弱;网络的训练开销大
A l e x N e t AlexNet AlexNet:
优点:多GPU 并行训练,采用激活函数ReLu,收敛速度加快,Dropout 防止过拟合,数据增强来提高模型准确率。
缺点:卷积核尺寸大(11x11),网络参数多。
V G G VGG VGG:
优点:结构简单,卷积层,池化层,全连接层;性能优异:较Alexnet参数少,性能提升明显。较GoogleNet、Resnet层数少,但性能接近;
缺点:极深的网络存在梯度消失,爆炸等的问题。
I n c e p t i o n Inception Inception网络:
优点:1.增加了网络的宽度;2.增加了网络对尺度的适应性,提高了网络内部计算资源的利用率;3.1x1减少网络参数,且起到信息融合的作用。
根据公式可得 m ′ = ( m − k + 2 p ) / s + 1 m'=(m-k+2p)/s+1 m′=(m−k+2p)/s+1, n ′ = ( n − k + 2 p ) / s + 1 n'=(n-k+2p)/s+1 n′=(n−k+2p)/s+1
区别:
1.分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。对象所属类别是否为已知的,是二者的最基本区别。
2.解决的问题不一样:分类算法的基本功能是做预测。聚类算法的功能是降维,目标不是发现知识,而是化简问题。
3.分类是有监督的算法,而聚类是无监督的算法。
联系:
两者有时联合应用的,如先聚类,根据数据集确定几类,然后建立分类模型进行判别。
工作原理:
自编码器就是将原始数据进行编码,进行降低维度,发现数据之间的规律的过程,自动编码器由两部分组成:
1) 编码器Encoder:将输入值进行特征提取,数据降维
2) 解码器Decoder:将特征还原为原始数据.
类型:
1) 稀疏自编码器
2) 堆叠自编码器
3) 降噪自编码器
能解决的实际问题有:数据去噪、降维、图像生成
关联:
自编码器是一种类似于 PCA 的无监督机器学习算法;自编码器要最小化和 PCA 一样的目标函数;
区别:
自动编码器既能表征线性变换,也能表征非线性变换;而 PCA 只能执行线性变换**。**PCA可以直接得到最优的解析解,而自动编码器只能通过反向传播得到局部最优的数值解。