事件A与事件B不可能同时发生,则A、B为互斥事件
P ( A ∪ B ) = P ( A ) + P ( B ) P\big( A \cup B \big) = P\big(A \big) +P\big(B\big) P(A∪B)=P(A)+P(B)
A事件的发生对B事件的发生没有影响
P ( A ∩ B ) = p ( A ) ∗ ( B ) P\big( A \cap B\big)=p\big(A\big)*\big(B\big) P(A∩B)=p(A)∗(B)
X事件发生的情况下Y事件发生的概率
P ( Y ∣ X ) = P ( X Y ) / P ( X ) P\big( Y|X\big)=P\big( XY\big)/P\big( X\big) P(Y∣X)=P(XY)/P(X)
X和Y同时发生的概率 = X先发生的概率乘以X发生的情况下Y发生的概率
P ( X Y ) = P ( X ) ∗ P ( Y ∣ X ) P\big( XY\big)=P\big(X\big)*P\big(Y|X\big) P(XY)=P(X)∗P(Y∣X)
P ( X Y ) = P ( X ∣ Y ) ∗ P ( Y ) = P ( Y ∣ X ) ∗ P ( X ) P\big(XY\big)=P\big(X|Y\big)*P\big(Y\big)=P\big(Y|X\big)*P\big(X\big) P(XY)=P(X∣Y)∗P(Y)=P(Y∣X)∗P(X)
P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) / P ( X ) P\big(Y|X\big)=P\big(X|Y\big)*P\big(Y\big)/P\big(X\big) P(Y∣X)=P(X∣Y)∗P(Y)/P(X)
P ( Y ∣ X ) P\big(Y|X\big) P(Y∣X)后验概率
P ( Y ) P\big(Y\big) P(Y) 先验概率
P ( Y ∣ X ) P\big(Y|X\big) P(Y∣X)
P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) / P ( X ) P\big(Y|X\big)=P\big(X|Y\big)*P\big(Y\big)/P\big(X\big) P(Y∣X)=P(X∣Y)∗P(Y)/P(X)
P ( Y ∣ X ) P\big( Y|X\big) P(Y∣X)
- 伯努利分布: P ( Y = 1 ) = p = 1 − P ( Y = 0 ) = 1 − q P\big(Y=1\big)=p=1-P\big(Y=0\big)=1-q P(Y=1)=p=1−P(Y=0)=1−q
- 多项分布:多次伯努利
E [ X ] = x 1 p 1 + x 2 p 2 + . . . x n p n E[X]=x_1p_1+x_2p_2+...x_np_n E[X]=x1p1+x2p2+...xnpn
E [ X + Y ] = E [ X ] + E [ Y ] , E [ a X ] = a E [ X ] E[X+Y]=E[X]+E[Y],E[aX]=aE[X] E[X+Y]=E[X]+E[Y],E[aX]=aE[X]
如果X,Y相互独立,那么 E [ X Y ] = E [ X ] ∗ E [ Y ] E[XY]=E[X]*E[Y] E[XY]=E[X]∗E[Y]
- V a r [ X ] = ( x 1 − μ ) 2 p 1 + . . . + ( x n − μ ) 2 p n Var[X]=\big(x_1-\mu\big)^2p_1+...+\big(x_n-\mu\big)^2p_n Var[X]=(x1−μ)2p1+...+(xn−μ)2pn
- V a r [ X ] = E [ ( X − μ ) 2 ] Var[X]=E[\big( X-\mu\big)^2] Var[X]=E[(X−μ)2]
- V a r [ X ] = E [ X 2 ] − E [ X ] 2 Var[X]=E[X^2]-E[X]^2 Var[X]=E[X2]−E[X]2
- 如果X和Y独立,则 V a r [ X + Y ] = V a r [ X ] + V a r [ Y ] Var[X+Y]=Var[X]+Var[Y] Var[X+Y]=Var[X]+Var[Y]
如果数据Label不平衡,则最好不使用准确率
precision=TP/(TP+FP)
recall=TPR=TP/(TP+FN)
recall=FPR=FP/(FP+TN)
AOC一般以FPR为横坐标,TPR为纵坐标
- 条件: f ( X ) ≥ 0 , X ⊆ Ω , ∫ f ( x ) d x = 1 f\big(X\big)\geq0,X\subseteq\Omega,\int f\big(x\big)d_x=1 f(X)≥0,X⊆Ω,∫f(x)dx=1
- 概率: P ( X ⊂ S ) = ∫ s f ( x ) d x P\big(X\subset S\big)=\int_sf\big(x\big)d_x P(X⊂S)=∫sf(x)dx
- 期望: E [ X ] = ∫ X f ( X ) d x E[X]=\int Xf\big(X\big)d_x E[X]=∫Xf(X)dx
- 方差: V a r [ X ] = ∫ ( X − μ ) 2 f ( x ) d x Var[X]=\int\big(X-\mu\big)^2f\big(x\big)d_x Var[X]=∫(X−μ)2f(x)dx
- 定义
X N ( μ , δ 2 ) , f ( X ) = 1 2 π δ 2 e x p ( − 1 2 δ 2 ( x − μ ) 2 ) X~N\big(\mu,\delta^2\big),f\big(X\big)=\frac{1}{\sqrt{2\pi\delta^2}}exp\big(-\frac{1}{2\delta^2}\big(x-\mu\big)^2\big) X N(μ,δ2),f(X)=2πδ21exp(−2δ21(x−μ)2)- 参数
E ( X ) = μ E\big(X\big)=\mu E(X)=μ
V a r [ X ] = δ 2 Var[X]=\delta^2 Var[X]=δ2
- c o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] cov\big(X,Y\big)=E[\big(X-E\big(X\big)\big)\big(Y-E[Y]\big)]=E[XY]-E[X]E[Y] cov(X,Y)=E[(X−E(X))(Y−E[Y])]=E[XY]−E[X]E[Y]
- c o v ( X , Y ) = c o v ( X , Y ) V a r ( X ) V a r ( Y ) cov\big(X,Y\big)=\frac{cov\big(X,Y\big)}{\sqrt{Var\big(X\big)Var\big(Y\big)}} cov(X,Y)=Var(X)Var(Y)cov(X,Y)
P ( Y ∣ X 1 , X 2 , . . . , X n ) = P ( X 1 , X 2 , . . . , X P ∣ Y ) P ( Y ) P ( X 1 , X 2 , . . . , X P ) = P ( X 1 ∣ Y ) P ( X 2 ∣ Y ) . . . P ( X P ∣ Y ) P ( Y ) P ( X 1 , X 2 , . . . . , X P ) P\big(Y|X_1,X_2,...,X_n\big)=\frac{P\big(X_1,X_2,...,X_P|Y\big)P\big(Y\big)}{P\big(X_1,X_2,...,X_P\big)}=\frac{P\big(X_1|Y\big)P\big(X_2|Y\big)...P\big(X_P|Y\big)P\big(Y\big)}{P\big(X_1,X_2,....,X_P\big)} P(Y∣X1,X2,...,Xn)=P(X1,X2,...,XP)P(X1,X2,...,XP∣Y)P(Y)=P(X1,X2,....,XP)P(X1∣Y)P(X2∣Y)...P(XP∣Y)P(Y)
给定两个概率分布p,q,定义KL Divergence为:
K L ( p ∣ ∣ q ) = ∑ i p i l o g p i q i KL\big(p||q\big)=\sum\limits_{i}p_ilog\frac{p_i}{q_i} KL(p∣∣q)=i∑pilogqipi
I ( X , Y ) = K L ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I\big(X,Y\big)=KL\big(P\big(X,Y\big)||P\big(X\big)P\big(Y\big)\big) I(X,Y)=KL(P(X,Y)∣∣P(X)P(Y))
I ( X , Y ) ≥ 0 I\big(X,Y\big)\geq0 I(X,Y)≥0当且仅当 P ( X , Y ) = P ( X ) P ( Y ) P\big(X,Y\big)=P\big(X\big)P\big(Y\big) P(X,Y)=P(X)P(Y)时, I ( X , Y ) = 0 I\big(X,Y\big)=0 I(X,Y)=0
I ( X , Y ) = H ( X ) − H ( X ∣ Y ) I\big(X,Y\big)=H\big(X\big)-H\big(X|Y\big) I(X,Y)=H(X)−H(X∣Y)