1)增加数据
2)正则项
3)early stopping
4)控制模型复杂度:
a. dropout(我觉得类似于subfeature)
b. 剪枝、控制树深
c. 增大分割平面间隔
5)bagging
6)subsampe & subfeature
7)特征选择、特征降维
8)数据增强(加包含噪声的数据)
9)ensemble
(参考林轩田的《机器学习技法》)
https://blog.csdn.net/u013382288/article/details/80470316
A. 1SGD(stochastic gradient descent)
B. BGD(batch gradient descent)
C. Adadelta
D. Momentum
神经网络经典五大超参数:
学习率(Learning Rate)、权值初始化(Weight Initialization)、网络层数(Layers)
单层神经元数(Units)、正则惩罚项(Regularizer|Normalization)
显然在这里超参数指的是事先指定的learningrate,而对超参数不敏感的梯度算法是Adadelta,牛顿法。
https://blog.csdn.net/qq_34470213/article/details/79869206
自适应学习速率SGD优化方法比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)https://blog.csdn.net/suixinsuiyuan33/article/details/69229605
A. 当方程组的系数行列式不等于零时,则方程组一定有解;
B. 如果方程组有两个不同的解,那么方程组的系数行列式必定等于零.
C. 如果方程组的系数行列式等于零,那么方程组一定无解
D. 当方插入哪个组的系数行列式不等于零是,则方程组可能有多组解.
n元齐次线性方程组有非零解的充要条件是其系数行列式为零。等价地,方程组有唯一的零解的充要条件是系数矩阵的行列式不为零,其矩阵可逆。
https://baike.baidu.com/item/克莱姆法则/7211518?fr=aladdin
在最优的情况下,快速排序算法的时间复杂度为O(nlogn);平均时间复杂度为O(n×log(n));最糟糕时复杂度为O(n^2)
假设检验的基本步骤如下:
1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。H0:样本与总体或样本与样本间的差异是由抽样误差引起的;H1:样本与总体或样本与样本间存在本质差异;预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。
教学中的做法:
1.根据实际情况提出原假设和备择假设;2.根据假设的特征,选择合适的检验统计量;3.根据样本观察值,计算检验统计量的观察值(obs);4.选择许容显著性水平,并根据相应的统计量的统计分布表查出相应的临界值(ctrit);5.根据检验统计量观察值的位置决定原假设取舍。
A. 正定矩阵
B. 负定矩阵
C. 半正定矩阵
D. 都不对
神经网络优化问题中的鞍点即一个维度向上倾斜且另一维度向下倾斜的点。
鞍点:梯度等于零,在其附近Hessian矩阵有正的和负的特征值,行列式小于0,即是不定的。
鞍点和局部极值的区别:
鞍点和局部极小值相同的是,在该点处的梯度都等于零,不同在于在鞍点附近Hessian矩阵是不定的,非正定,非负定,非半正定(行列式小于0),而在局部极值附近的Hessian矩阵是正定的。
https://blog.csdn.net/qq_26598445/article/details/80910366
D(X),则 D(X)=
1 0、1/3、1/3n、3
随机变量:U(a,b)
X的概率密度函数:f(x)=1/(b-a) a
X的方差:D(X)=Var(X)=∫(b,a)[x-E(X)]² dx/(b-a)
=∫(b,a)[x-(a+b)/2]² dx/(b-a)
=(b-a)²/12
{|X-μ|>=b}<=σ²/b²