统计学作业啊啊啊啊

题目1

一个制药公司宣称其新药可以将病患的恢复时间从10天降至8天。为了验证这一声明,您从服用新药的病患中抽取了一个样本,发现样本均值为9天,样本标准差为2天,样本量为30。使用0.05的显著性水平进行假设检验,判断公司的声明是否成立。

最后的结果可使用Python(scipy库)来完成这个假设检验的计算。


答案

当我们进行假设检验时,尤其是在样本量较小或总体标准差未知的情况下,我们通常使用t分布。t分布与正态分布相似,但其尾部较厚,这是为了修正小样本量导致的估计不确定性。

设置原假设和备择假设:
H 0 : μ = 10 H_0: \mu=10 H0:μ=10 (新药无效)
H 1 : μ < 10 H_1: \mu<10 H1:μ<10 (新药有效)
计算统计量:
t = X ˉ − μ 0 s / n t=\frac{\bar{X}-\mu_0}{s / \sqrt{n}} t=s/n Xˉμ0
其中, X ˉ \bar{X} Xˉ 是样本均值, μ _ 0 \mu \_0 μ_0 是原假设的总体均值, s s s 是样本标准差, n \mathrm{n} n 是样本量。
t = 9 − 10 2 / 30 = − 1 2 / 30 t=\frac{9-10}{2 / \sqrt{30}}=-\frac{1}{2 / \sqrt{30}} t=2/30 910=2/30 1
使用t分布表或相关软件/计算器,查找在显著性水平0.05下,自由度为29的 t \mathrm{t} t 值。如果计算出 的统计量比这个t值还小,则拒绝原假设。如果计算出的t统计量比显著性水平0.05的t值小,则可以拒绝原假设,认为制药公司的声明成立;否则,不能拒绝原假设,说明公司的声明无法得到证实。

具体来说,t分布的形状取决于“自由度”,通常以 d f d f df 表示。对于单样本 t \mathrm{t} t 检验,自由度为 n − 1 n-1 n1 ,其中 n n n 是 样本量。在上述练习题中,我们的样本量为30,所以自由度是29。 当我们说“在显著性水平0.05下,自由度为29的t值”,我们是在查找一个临界值,这个值将t分布的下5%的区域与上95%的区域分开(因为我们正在进行一个单尾检验,检验μ是否小于10)。 为什么这个临界值如此重要呢? 当我们计算得到一个t统计量,我们需要判断它是否位于t分布的关键区域。如果它在关键区域内(在这种情况下,比临界t值还小,因为我们关心的是左尾),那么我们有足够的证据拒绝原假设。

如果我们的t统计量比这个临界t值还小,那么观察到的样本均值(在这里是9天)与原假设下的总体均值(10天)之间的差异是统计上显著的。因此,我们拒绝原假设,并得出结论:新药的恢复时间确实少于10天。

如果我们的t统计量大于或等于这个临界值,那么我们没有足够的证据拒绝原假设。这并不意味着原假设是正确的,只是意味着我们没有足够的证据证明新药可以缩短恢复时间。

我将使用Python来完成这个假设检验的计算。

首先,我们使用之前提供的信息来计算t统计量:
t = X ˉ − μ 0 s / n t=\frac{\bar{X}-\mu_0}{s / \sqrt{n}} t=s/n Xˉμ0
其中, X ˉ \bar{X} Xˉ 是样本均值 (9天), μ − 0 \mu_{-} 0 μ0 是原假设的总体均值(10天), s s s 是样本标准差(2天), n \mathrm{n} n 是样本量 (30)。
接着,我们将使用SciPy库中的 ′ t { }^{\prime} \mathrm{t} t 函数来查找自由度为 29 和显著性水平为 0.05 的临界 t t t 值。 最后,我们将比较计算得到的统计量和临界埴,以决定是否拒绝原假设。
让我们开始编写Python代码来完成这些步骤:

import numpy as np
from scipy.stats import t

# 给定的数据
sample_mean = 9
population_mean = 10
sample_std = 2
n = 30

# 计算t统计量
t_stat = (sample_mean - population_mean) / (sample_std / np.sqrt(n))

# 查找显著性水平为0.05和自由度为29的临界t值
t_critical = t.ppf(0.05, df=n-1)  # 左尾检验,所以使用0.05

print("Calculated t-statistic:", t_stat)
print("Critical t-value for alpha=0.05 and df=29:", t_critical)

# 判断是否拒绝原假设
if t_stat < t_critical:
    print("Reject the null hypothesis: The drug is effective.")
else:
    print("Fail to reject the null hypothesis: No evidence that the drug is effective.")

运行上述代码后,我们可以根据输出结果来判断是否拒绝原假设。

题目2

考虑一个随机实验,每次实验的结果是一个从[0, 1]区间上均匀选择的随机数。令随机变量 X 表示每次实验得到的数值。已知 X 在[0, 1]上是均匀分布的。

求随机变量 X 的期望。
使用积分,计算随机变量 X 的方差。
现在进行该实验1000次,形成一个样本。根据大数定律,样本均值应该接近于什么值?
如果上述实验代表了一个总体,那么再次随机抽取10个样本值,计算其样本均值。你期望这个样本均值与总体均值之间有多大的差异?


答案

  1. 求随机变量 X X X 的期望。
    随机变量 X X X 的期望定义为:
    E ( X ) = ∫ a b x f ( x ) d x E(X)=\int_a^b x f(x) d x E(X)=abxf(x)dx
    由于 X X X [ 0 , 1 ] [0,1] [0,1] 上是均匀分布的,其概率密度函数 f ( x ) f(x) f(x) 是常数,且 f ( x ) = 1 f(x)=1 f(x)=1 (因为该区间 的总概率为1)。
    代入上述公式,我们得到:
    E ( X ) = ∫ 0 1 x ⋅ 1 d x = ∫ 0 1 x d x = x 2 2 ∣ 0 1 = 1 2 \begin{aligned} & E(X)=\int_0^1 x \cdot 1 d x=\int_0^1 x d x \\ & =\left.\frac{x^2}{2}\right|_0 ^1=\frac{1}{2} \end{aligned} E(X)=01x1dx=01xdx=2x2 01=21
    答案: E ( X ) = 1 2 E(X)=\frac{1}{2} E(X)=21

  2. 使用积分,计算随机变量 X X X 的方差。
    方差定义为:
    Var ⁡ ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2 Var(X)=E(X2)[E(X)]2
    我们已经知道 E ( X ) = 1 2 E(X)=\frac{1}{2} E(X)=21 。现在,我们需要找到 E ( X 2 ) E\left(X^2\right) E(X2)
    E ( X 2 ) = ∫ 0 1 x 2 ⋅ 1 d x = ∫ 0 1 x 2 d x = x 3 3 ∣ 0 1 = 1 3 \begin{aligned} & E\left(X^2\right)=\int_0^1 x^2 \cdot 1 d x=\int_0^1 x^2 d x \\ & =\left.\frac{x^3}{3}\right|_0 ^1=\frac{1}{3} \end{aligned} E(X2)=01x21dx=01x2dx=3x3 01=31
    代入方差的公式,我们得到:
    Var ⁡ ( X ) = 1 3 − ( 1 2 ) 2 = 1 3 − 1 4 = 1 12 \operatorname{Var}(X)=\frac{1}{3}-\left(\frac{1}{2}\right)^2=\frac{1}{3}-\frac{1}{4}=\frac{1}{12} Var(X)=31(21)2=3141=121
    答案: Var ⁡ ( X ) = 1 12 \operatorname{Var}(X)=\frac{1}{12} Var(X)=121

  3. 现在进行该实验 1000 次,形成一个样本。根据大数定律,样本均值应该 接近于什么值?
    根据大数定律,随着试验次数的增加,样本均值应该接近于总体均值。在这个例子中,总体 均值是 E ( X ) = 1 2 E(X)=\frac{1}{2} E(X)=21
    答案: 样本均值应该接近于 1 2 \frac{1}{2} 21

  4. 如果上述实验代表了一个总体,那么再次随机抽取10个样本值,计算其 样本均值。你期望这个样本均值与总体均值之间有多大的差异?
    由于这是一个随机实验,我们不能预先知道确切的差异。但我们可以计算标准误差来估计差 异的大小。
    标准误差定义为:
    S E = σ n S E=\frac{\sigma}{\sqrt{n}} SE=n σ
    其中, σ \sigma σ 是总体标准差,而 n \mathrm{n} n 是样本大小。在这里, σ = Var ⁡ ( X ) = 1 12 \sigma=\sqrt{\operatorname{Var}(X)}=\sqrt{\frac{1}{12}} σ=Var(X) =121 n = 10 \mathrm{n}=10 n=10
    S E = 1 12 10 S E=\frac{\sqrt{\frac{1}{12}}}{\sqrt{10}} SE=10 121
    这个值给出了样本均值的平均波动幅度。
    答案: 我们期望样本均值与总体均值之间的差异大约在上述的标准误差范围内。

你可能感兴趣的:(概率论)