机器学习小组知识点17:对数正态分布(Logarithmic Normal Distribution)

这块儿我是真的没听说过,所以直接抄了维基百科,维基万岁!

概率密度函数

在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果 X 是正态分布的随机变量,则 exp(X) 为对数正态分布;同样,如果 Y 是对数正态分布,则 ln(Y) 为正态分布。 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。 对于 x>0 ,对数正态分布的概率密度函数为:

f(x;μ,σ)=1xσ2πe(lnxμ)2/2σ2

其中 μ σ 分别是变量对数的平均值与标准差。
推导过程:概率微分不变性。
一个正的随机变量 x 是对数正态分布,当且仅当 x 是正态分布。那么:
N(lnx;μ,σ)=1σ2πexp[(lnxμ)22σ2].

利用概率微分不变性,有
N(lnx)dlnx=N(lnx)dlnxdxdx=N(lnx)dxx=lnN(x)dx,
,
其中,
lnN(x;μ,σ)=1xσ2πexp[(lnxμ)22σ2],  x>0

是对数正态分布函数。

期望和方差:

期望为

E(X)=eμ+σ2/2

方差为
var(X)=(eσ21)e2μ+σ2.

给定期望值与方差,也可以用这个关系求 μ σ :
μ=ln(E(X))12ln(1+var(X)E(X)2),

σ2=ln(1+var(X)E(X)2).

注意:已知变换后的数据的统计特征可以反过来推导出原始数据的统计特征,不存在数据信息的损失(可以看到对数转换后变量的均值可以直接由样本数据的均值得到,但不进行变化却需要由样本均值方差两方面去推断得到),也可以发现对数正态分布实际上是对数据进行了对数变化,从而变成了正态分布,这样更加方便的得到了相关的统计学变量。

局部期望

随机变量 X 在阈值 k 上的局部期望定义为

g(k)=k(xk)f(x)dx

其中 f(x) 是概率密度。对于对数正态概率密度,这个定义可以表示为
g(k)=exp(μ+σ2/2)Φ(ln(k)+μ+σ2σ)kΦ(ln(k)+μσ)

其中 Φ 是标准正态部分的累积分布函数。对数正态分布的局部期望在保险业及经济领域都有应用,著名的Black-Scholes期权定价公式便可由此推导出。

相关分布(与高斯分布的关系)

如果 Y=ln(X)Y=ln(X) XLog-N(μ,σ2) ,则 YN(μ,σ2) 是正态分布。
如果 XmLog-N(μ,σ2m), m=1...n¯¯¯¯¯¯¯ 是有同样 μ 参数、而 σ 可能不同的统计独立对数正态分布变量 ,并且 Y=m=1nXm ,则 Y 也是对数正态分布变量: YLog-N(nμ,m=1nσ2m)

这是因为在高斯分布求和的分布性质。

在股票中的应用

对数正态分布一般被用来描述增长率。比如股票指数,假设今天标普从2000点涨到了2020,相比于n年前的某一天它从100点涨到101点,虽然今天上涨了20点,远高于另一天上涨的1点,但这两天的上涨率是相同的(1%)。
至于为什么要取对数log(x2/x1),而不是直接用x2/x1,看一眼对数曲线就明白了。(x1,x2分别表示第一天和第二天的股指)。
它有几个很好的性质:
1.假如增长率不变,那么log(1)=0,位于正态分布的中央
2.log(1/a) = -log(a),也就是说股票在一段时间内涨到两倍和跌一半的概率是一样的
3.x为正(股指永远不会为负值),y值能取正无穷到负无穷。

你可能感兴趣的:(机器学习)