P68
conjugate priors
In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distributionp(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. For example, the Gaussian family is conjugate to itself (or self-conjugate) with respect to a Gaussian likelihood function: if the likelihood function is Gaussian, choosing a Gaussian prior over the mean will ensure that the posterior distribution is also Gaussian.
exponential family
The exponential families include many of the most common distributions, including the normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, binomial,multinomial, Poisson, Wishart, Inverse Wishart and many others.
P73页关于那个Beta分布的东东哪里看到过,想不起来了,是《统计学习完全教程》里?下次找找看。
2.2 Multinomial Variables
Multinomial 说白了就是多选一分布。比如随机变量X有三种取值x1,x2,x3,那么用一个三维向量表示Multinomial 的取值就是{1,0,0},{0,1,0},{0,0,1}分别代表选中x1,x2,x3,即必须选中一个,同时只能选一个这样的意思。
如果用μk表示xk=1时的概率,那么对于随机变量x的取值的概率分布可以表示为:
其实这个式子的意思就是当K取值k的时候,只有xk是1,其他都是0,所以这个p(x|μ)的值就是μk的值而已,因为一个数的0次方是1,所以对于其他xi(i≠k)的那部分μi全部都乘以了一个1而已。搞了这么一个玄乎的式子,应该是为了数学表示全面点,事实上直接理解就是p(x|μ) = μk。
那么对于Multinomial 的极大似然估计其实可想而知,就是数数xk的个数然后取占整个集合的比例作为概率了。式(2.31)给了数学上的likelihood的式子,但是那个什么拉格朗日乘子λ我已经没啥概念了,这里记着点以后看。