123

处理数据的原因是为了让数据更能够符合模型的计算。

比如归一化。

回归问题使用 MSE :原因是用极大似然拟合正态分布。正态分布在这里有什么关系么?

cross entropy 也是通过极大似然推出来的?

loss function 极大似然 最大后验???

最大后验后面会加正则项而已

多个二分类和用 softmax ????

多分类的 cross entropy ????

前馈神经网络:沿着方向往前算。

为什么激活函数能够增加模型表现非线性特征的能力???

初始化问题????

解决局部最优的方法:momentum, rmsprop, adam

反向传播是用来计算各参数梯度的一个手段

DT 什么时候分裂

LR 的 loss function 是怎么得来的

LR 为什么每个特征都要进行 normal ???

你可能感兴趣的:(123)