选择的策略为设定一个值r,规定只看而不选取前r个女生,然后从第r+1个女生开始选取,若任何一个女生比之前的女生玫瑰花都长,则选取这个女生。这样,该问题的未知数就为r,假设在第k个女生上选取到了最长的玫瑰花,则其综合概率为:
P ( r ) = ∑ k = r + 1 n P ( 第 k 个 女 生 被 选 中 且 拥 有 最 长 的 玫 瑰 花 ) = ∑ k = r + 1 n P ( 第 k 个 女 生 的 玫 瑰 花 最 长 ) P ( 第 k 个 女 生 被 选 中 ∣ 第 k 个 女 生 的 玫 瑰 花 最 长 ) = ∑ k = r + 1 n 1 n P ( 前 k − 1 个 女 生 中 最 长 的 玫 瑰 花 在 前 r 个 女 生 中 ) = ∑ k = r + 1 n 1 n r k − 1 = r n ∑ k = r n − 1 1 k = r n ∗ 1 n ∑ k = r n − 1 1 k n = x ∫ x 1 1 t d t = − x ln x P ′ ( r ) = − ( ln x + 1 ) 令 P ′ ( r ) = 0 , 则 有 x = 1 e , 所 以 当 r n = 1 e , 即 r = n e 时 , P ( r ) m a x = 1 e P(r)=\sum_{k=r+1}^{n} P(第k个女生被选中且拥有最长的玫瑰花)\\ =\sum_{k=r+1}^{n} P(第k个女生的玫瑰花最长)P(第k个女生被选中|第k个女生的玫瑰花最长)\\ =\sum_{k=r+1}^{n} \frac{1}{n} P(前k-1个女生中最长的玫瑰花在前r个女生中)\\ =\sum_{k=r+1}^{n} \frac{1}{n} \frac{r}{k-1}=\frac{r}{n} \sum_{k=r}^{n-1}\frac{1}{k}=\frac{r}{n}*\frac{1}{n} \sum_{k=r}^{n-1}\frac{1}{\frac{k}{n}}=x\int_{x}^{1} \frac{1}{t} dt=-x\ln x\\ P'(r) = -(\ln x + 1)\\ 令P'(r)=0,则有x=\frac{1}{e},所以当\frac{r}{n}=\frac{1}{e},即r=\frac{n}{e}时,P(r)_{max}=\frac{1}{e} P(r)=k=r+1∑nP(第k个女生被选中且拥有最长的玫瑰花)=k=r+1∑nP(第k个女生的玫瑰花最长)P(第k个女生被选中∣第k个女生的玫瑰花最长)=k=r+1∑nn1P(前k−1个女生中最长的玫瑰花在前r个女生中)=k=r+1∑nn1k−1r=nrk=r∑n−1k1=nr∗n1k=r∑n−1nk1=x∫x1t1dt=−xlnxP′(r)=−(lnx+1)令P′(r)=0,则有x=e1,所以当nr=e1,即r=en时,P(r)max=e1
假设一年365天,对于一年中的一天,员工上班的概率为 ( 1 − 1 365 ) n (1-\frac{1}{365})^{n} (1−3651)n。对于一年来说,整体员工的期望上班时间为: 所 有 员 工 书 ∗ 每 天 所 有 员 工 上 班 概 率 ∗ 365 所有员工书*每天所有员工上班概率*365 所有员工书∗每天所有员工上班概率∗365,即:
E ( n ) = n ∗ ( 1 − 1 365 ) n ∗ 365 E(n)=n*(1-\frac{1}{365})^{n}*365 E(n)=n∗(1−3651)n∗365
对其求对数得:
ln E ( n ) = ln 365 + ln n + n ∗ ln ( 1 − 1 365 ) \ln E(n)=\ln 365 + \ln n + n*\ln (1-\frac{1}{365}) lnE(n)=ln365+lnn+n∗ln(1−3651)
对 n n n求导,并令导数为0,得:
d ln E ( n ) d n = 1 n + ln ( 1 − 1 365 ) = 0 1 n = − ln ( 1 − 1 365 ) = ln 365 364 → n ≈ 365 \frac{d\ln E(n)}{dn}=\frac{1}{n}+\ln (1-\frac{1}{365})=0\\ \frac{1}{n}=-\ln (1-\frac{1}{365})=\ln \frac{365}{364} \rightarrow n\approx 365 dndlnE(n)=n1+ln(1−3651)=0n1=−ln(1−3651)=ln364365→n≈365
P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 , 其 中 k > 0 , μ 为 期 望 , σ 为 标 准 差 P(|X-\mu|\geq k\sigma)\leq \frac{1}{k^{2}},\quad 其中k > 0,\mu为期望,\sigma为标准差 P(∣X−μ∣≥kσ)≤k21,其中k>0,μ为期望,σ为标准差
设绳子长为 a a a,折成三段的长度为 x , y , a − x − y x, y, a-x-y x,y,a−x−y,根据约束条件 x > 0 , y > 0 , a − x − y > 0 x > 0, y > 0, a-x-y > 0 x>0,y>0,a−x−y>0可得其可行域(三角形区域)所围成的面积为 1 2 a 2 \frac{1}{2}a^2 21a2。构成三角形的条件为 x + y > a − x − y , a − y > y , a − x > x x+y > a-x-y, a-y > y, a-x > x x+y>a−x−y,a−y>y,a−x>x,其可行域(三角形区域)所围成的面积为 1 8 a 2 \frac{1}{8}a^2 81a2,所以构成三角形的概率为:
1 8 a 2 1 2 a 2 = 0.25 \frac{\frac{1}{8}a^2}{\frac{1}{2}a^2}=0.25 21a281a2=0.25
最大似然估计(MLE)提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。给定一个已知的模型结构和采样得到的观察数据(这里假设数据是独立同分布的),最大似然估计的目的就是通过这两项来估计模型的参数,用公式可以表示为:
θ ~ M L E ( x ) = arg max θ f ( x ∣ θ ) \tilde{\theta}_{MLE}(x)=\mathop{\arg\max}_{\theta}f(x|\theta) θ~MLE(x)=argmaxθf(x∣θ)
最大后验概率(MAP)是根据经验数据获得对难以观察数据的估计。与最大似然估计不同的是,最大后验估融入了估计量的先验分布在其中,即模型参数本身的概率分布。估计过程中,需利用先验概率和贝叶斯定理得到后验概率,目标函数为后验概率的似然函数,求得该似然函数最大时的参数值,即MAP的目标结果,假设 θ \theta θ的先验分布为 g ( θ ) g(\theta) g(θ),那么用公式可以表示为:
θ ~ M A P ( x ) = arg max θ f ( x ∣ θ ) g ( θ ) ∫ f ( x ∣ θ ′ ) g ( θ ′ ) d θ ′ = arg max θ f ( x ∣ θ ) g ( θ ) \tilde{\theta}_{MAP}(x)=\mathop{\arg\max}_{\theta}\frac{f(x|\theta)g(\theta)}{\int f(x|\theta ')g(\theta ')d\theta '}=\mathop{\arg\max}_{\theta}f(x|\theta)g(\theta) θ~MAP(x)=argmaxθ∫f(x∣θ′)g(θ′)dθ′f(x∣θ)g(θ)=argmaxθf(x∣θ)g(θ)
假设 θ \theta θ为总体分布中的参数, θ \theta θ的先验分布为 f ( θ ) f(\theta) f(θ),而抽样信息算得的后验分布 f ( θ ∣ x ) f(\theta |x) f(θ∣x)与其先验分布 f ( θ ) f(\theta) f(θ)有相同的函数形式,那么 f ( θ ) f(\theta) f(θ)为 θ \theta θ的共轭先验分布。
概率表达了给定参数 θ \theta θ下,样本 X = x \textbf{X}=x X=x发生的可能性;
似然则表达了给定样本 X = x \textbf{X}=x X=x下参数 θ \theta θ为真实值的可能性。
频率学派对应最大似然估计(MLE)。频率论方法通过大量独立实验将该剧解释为统计均值,把未知参数看作普通变量,把样本看作随机变量,其仅仅利用抽样数据;
贝叶斯学派对应最大后验估计(MAP)。贝叶斯方法则将概率解释为信念度,不需要大量的实验,把一切变量看作随机变量,贝叶斯论善于利用过去的知识和抽样数据。
频率学派和贝叶斯学派的最主要区别为是否允许先验概率分布的使用。频率学派不假设任何的先验知识,不参照过去的经验,只按照当前已有的数据进行概率推断;贝叶斯学派会假设先验知识的存在,然后再用采样逐渐修改先验知识并逼近真实知识。