一些数学概念

! 在本地编辑后上传

一些数学概念

1. 微积分

雅各比矩阵,对于一个坐标进行非线性变换,变换后坐标对原坐标求偏导。
https://www.bilibili.com/video/BV1NJ411r7ja/
\begin{split}J=\left(\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}}\\ \vdots & \ddots & \vdots\\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right)\end{split}

2. 概率统计

2.1 极大似然估计

似然函数: 取样后得到各个样本,产生该样本模型概率的乘积,一般来说需要取对数,然后求导找最大值。

参考:https://blog.csdn.net/xg123321123/article/details/52980581

2.2 KL散度和JS散度

KL散度

KL-divergence: ,其实就是衡量p, q两种分布的差异。假设你有一组观测分布a,现在有两种可以选择的近似分布b, c,就可以分别计算,看看哪个比较小,说明更接近分布a。

在K-L值相同的情况下,更倾向于使用更常见的、更简单的均分布模型。注意散度并非距离,因为没有对称性KL(A,B) ≠ KL(B,A)。

  • 附录
  • K-L 散度的定义:
    image
  • 遇到log 0时怎么办:取一个很小的值,作为某些分布中没有的概率的值。
    image
  • 一些注意事项:
    image

参考https://www.jianshu.com/p/43318a3dc715?isappinstalled=0

JS散度(Jensen-Shannon)

JS散度度量了两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题。一般JS散度是对称的,取值为0,1之间,定义如下:


但是也有一个问题:
如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。

2.3 Dice系数,F1-score,ROC-AUC的含义,PR曲线含义

  1. Dice系数

Dice距离主要是用来计算两个集合的相似性的(也可以度量字符串的相似性).计算公式如下:

img
  1. F1 score

F1分数是用来衡量二分类模型精确度的一种指标,同时考虑到分类模型的准确率和召回率.可看做是准确率和召回率的一种加权平均.

img

在已知精确率和召回率的情况下 求得的一种平均的结果.

  1. 各种指标的含义

precision: 预测为对的当中,原本是对的比例(越大越好,1为理想状态)

recall:原本为对的当中,预测是对的比例(越大越好,1为理想状态)

F-measure: 由于precision和recall两个指标不想管,所以用F-measure将他们合并成一个衡量指标(越大越好.理想为1)

accuracy: 预测正确的(包括预测对的正例和反例)占整个样本的比例(越大越好,理想为1)

FP rate : 原本是错的,但是预测为对的比例(越小越好,理想为0)

TP rate: 原本为对的,预测为对的比例(越大越好,理想为1)

ROC 曲线: 得到某算法的一组(FP rate, TP rate), 然后做出曲线; 衡量标准是AUC,

ROC-AUC: ROC 曲线下的面积(越大越好,1为理想状态)

PR曲线: 以recall作为横坐标,以precision作为纵坐标绘制的曲线..如果recall和precision二者都是越大越好,但是二者是负相关的. 所以PR曲线是越往忧伤凸越好(双高的状态),

3. 机器学习

反向传播公式

我今天想那个反向传播公式想了好久,终于明白了,原来原理真的就是链式求导法则。
一个全连接ReLU神经网络,一个隐藏层,没有bias。用来从x预测y,使用L2 Loss:


  • 下面求w1, w2的梯度

\begin{aligned} \frac {d(loss)}{dy} = 2(y_p - y) \\ \frac {d(loss)}{dW_2} = \frac {d(loss)}{dy} \frac {dy}{dW_2} = 2(y_p - y)a \\ \frac {d(loss)}{dh} = \frac {d(loss)}{dy} \frac {dy}{da}\frac {da}{dh} \\ \frac {d(loss)}{dW_1} = \frac {d(loss)}{dh} \frac {dh}{dW_1} \end{aligned}

你可能感兴趣的:(一些数学概念)