! 在本地编辑后上传
一些数学概念
1. 微积分
雅各比矩阵,对于一个坐标进行非线性变换,变换后坐标对原坐标求偏导。
https://www.bilibili.com/video/BV1NJ411r7ja/
2. 概率统计
2.1 极大似然估计
似然函数: 取样后得到各个样本,产生该样本模型概率的乘积,一般来说需要取对数,然后求导找最大值。
参考:https://blog.csdn.net/xg123321123/article/details/52980581
2.2 KL散度和JS散度
KL散度
KL-divergence: ,其实就是衡量p, q两种分布的差异。假设你有一组观测分布a,现在有两种可以选择的近似分布b, c,就可以分别计算,看看哪个比较小,说明更接近分布a。
在K-L值相同的情况下,更倾向于使用更常见的、更简单的均分布模型。注意散度并非距离,因为没有对称性KL(A,B) ≠ KL(B,A)。
- 附录
- K-L 散度的定义:
- 遇到
log 0
时怎么办:取一个很小的值,作为某些分布中没有的概率的值。 - 一些注意事项:
参考https://www.jianshu.com/p/43318a3dc715?isappinstalled=0
JS散度(Jensen-Shannon)
JS散度度量了两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题。一般JS散度是对称的,取值为0,1之间,定义如下:
但是也有一个问题:
如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。
2.3 Dice系数,F1-score,ROC-AUC的含义,PR曲线含义
- Dice系数
Dice距离主要是用来计算两个集合的相似性的(也可以度量字符串的相似性).计算公式如下:
- F1 score
F1分数是用来衡量二分类模型精确度的一种指标,同时考虑到分类模型的准确率和召回率.可看做是准确率和召回率的一种加权平均.
在已知精确率和召回率的情况下 求得的一种平均的结果.
- 各种指标的含义
precision: 预测为对的当中,原本是对的比例(越大越好,1为理想状态)
recall:原本为对的当中,预测是对的比例(越大越好,1为理想状态)
F-measure: 由于precision和recall两个指标不想管,所以用F-measure将他们合并成一个衡量指标(越大越好.理想为1)
accuracy: 预测正确的(包括预测对的正例和反例)占整个样本的比例(越大越好,理想为1)
FP rate : 原本是错的,但是预测为对的比例(越小越好,理想为0)
TP rate: 原本为对的,预测为对的比例(越大越好,理想为1)
ROC 曲线: 得到某算法的一组(FP rate, TP rate), 然后做出曲线; 衡量标准是AUC,
ROC-AUC: ROC 曲线下的面积(越大越好,1为理想状态)
PR曲线: 以recall作为横坐标,以precision作为纵坐标绘制的曲线..如果recall和precision二者都是越大越好,但是二者是负相关的. 所以PR曲线是越往忧伤凸越好(双高的状态),
3. 机器学习
反向传播公式
我今天想那个反向传播公式想了好久,终于明白了,原来原理真的就是链式求导法则。
一个全连接ReLU神经网络,一个隐藏层,没有bias。用来从x预测y,使用L2 Loss:
-
下面求w1, w2的梯度