一些零碎的知识

1、MLE和MAP

MLE: 模型已定，参数未知

极大似然估计，是一种参数估计的方法。即假设样本满足某种分布，利用已知的样本结果信息去反推最有可能导致这些样本出现的模型参数值。
极大似然估计中的采样必须满足独立同分布原则。
极大似然估计的核心关键就是对于一些情况，样本太多，无法得出分布的参数值，可以采样小样本后，利用极大似然估计获取假设中分布的参数值。

https://zhuanlan.zhihu.com/p/32480810
https://zhuanlan.zhihu.com/p/37215276

2、交叉熵损失函数和softmax损失函数

为什么不用MSE，是因为分类问题必须是one-hot形式算出各label的概率，然后通过softmax选出最终的分类，而MSE计算的loss曲线是波动的，存在很多局部极值点，而cross entropy计算loss是凸优化问题，有更好的收敛性。

MSE的loss曲线

那么问题来了，为什么cross entropy的曲线必定是凸的呢?
****************************************************=****************************************************************

分类问题，都用 onehot + cross entropy
training 过程中，分类问题用 cross entropy，回归问题用 mean squared error。
training 之后，validation / testing 时，使用 classification error，更直观，而且是我们最关注的指标。

3、信息论

信息量：时间x0的信息量，p(x0)表示事件x0发生的概率

信息量

熵(信息熵)：随机变量或者一个系统的不确定性，是对所有可能发生的事件产生的信息量的期望，熵越大，随机变量或系统的不确定性就越大

信息熵

交叉熵：衡量在给定真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出代价

交叉熵(公式加负号)

相对熵(K-L散度)：用来衡量两个取值为正的函数或概率分布之间的差异

相对熵

在机器学习中，常使用KL散度来评估预测分布和真实分布之间的差别，由于K-L散度的前部分是一个常量，因此常把后半部分的交叉熵作为损失函数，本质是一样的，是衡量两个分布的距离。

4、Batch Normalization

https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/69659844
https://zhuanlan.zhihu.com/p/52749286
https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/43200897
https://www.zhihu.com/question/38102762/answer/85238569
https://zhuanlan.zhihu.com/p/54530247

5、样本不均衡问题

降采样
重采样

实际的效果，降采样要优于重采样。

对大类数据先聚类得到n个簇，从每个簇中选择一个代表性的样本，再与小类样本进行训练。
数据合成，即随机插值得到新样本

6、归一化

归一化的好处：

加快了梯度下降求解最优解的速度
有可能提高精度
归一化类型：
线性归一化
标准差归一化
x' = x - u / \sigma
非线性归一化

7、beam_search和viterbi

8、激活函数

（1）线性函数
（2）sigmoid函数（严格递增，值域0-1）
（3）tach函数（值域-1~1）
（4）ReLU=max(0,x) (稀疏)

逻辑回归是神经网络的一个特例

9、

11、损失函数

交叉熵损失：衡量两个概率分布之间的距离，若p代表正确的label，q代表预测值，则。而神经网络的输出大多是实数，可用softmax转换。
例如：一个三分类问题，某个样例的正确答案是（1， 0， 0），某模型经过softmax变换后的预测答案是（0.5， 0.4， 0.1），那预测和正确答案的交叉熵是：