laffycat

【GitModel】假设检验1-方法论与一元数值检验学习笔记

本文内容根据Datawhale和GitModel开源学习教程整理，学习链接：https://github.com/Git-Model/Modeling-Universe/tree/main/Data-Story
感谢课程开发者的付出与贡献！

本节作业链接：戳我进入

文章目录

1 假设检验介绍
- 1.1 假设检验的原理
- - 1.1.1 假设检验的本质
  - 1.1.2 假设检验的推导
  - - 1. 假设的建议
    - 2. 单参数检验的三种类型与原假设的注意事项
    - 3. 临界值、拒绝域、显著性水平
    - 4. 用分布处理概率——构造检验统计量
    - 5. 结合代码
  - 1.1.3 假设检验的基本步骤——基于p值
- 1.2 假设检验的分类
2 一元数值数据假设检验
- 2.1 正态性检验
- - 2.1.1 概率图
  - 2.1.2 两种正态性检验
  - 2.1.3 同时使用多种方法判断正态性
- 2.2 均值检验
- - 2.2.1 单组样本均值假定的检验
  - - 1. 单样本t检验（One Sample t-test）
    - 2. wilcoxon符号秩和检验
    - 3. 代码
  - 2.2.2 两组样本的均值相等性检验
  - - 1. 组别间独立
    - 2. 成对组别
  - 2.2.3 方差分析-多组样本间的均值相等性检验
  - - 1. 单因素方差分析
    - 2. 双因素分析

1 假设检验介绍

作用：

建模时通过假设检验对数据进行探索性的信息挖掘
建模后通过特定的假设检验验证模型的有效性

分类：

基于统计模型的假设检验：基于已知统计模型，为模型使用提供帮助，例如线性回归模型的系数显著性检验
不基于统计模型的假设检验：从数据出发，检验数据的某些性质，例如正态性检验、双样本t检验、方差分析等

以下内容总结常见的不基于统计模型的假设检验。

1.1 假设检验的原理

1.1.1 假设检验的本质

定义：根据样本信息与已知信息，对一个描述样本所在总体性质的命题进行“是或否”的检验与回答
类型：

参数假设检验：假设是关于总体的一个参数或者参数的集合
非参数假设检验：假设不能用一个参数集合来表示，例如正态性检验

1.1.2 假设检验的推导

1. 假设的建议

问题描述：

必胜中学初三年级学生的数学成绩 $X$ 服从正态分布 $\sim N\left(\mu, \sigma^{2}\right)$ ，抽取一班学生成绩做样本，已知样本均值 $\bar{x}=108.2$ ，样本标准差 $s = 4 ，$ 一班人数 $n = 25$ ，能否认为总体均值 $\mu>110$ ?

“总体均值 $\mu>110$ ”是否正确涉及如下两个假设问题:
$H_{0}: \mu \leqslant 110 \leftrightarrow H_{1}: \mu>110$
$H_{0}$ 被称为原假设， $H_{1}$ 被称为备择假设，两个假设必须为互斥关系，因为只有这样，拒绝假设 $H_{0}$ 才等价于接受假设 $H_{1}$ ，命题成立的探讨就转化为了拒绝原假设 $H_{0}$ 的探讨

强调对拒绝原假设的探讨，而非接受备择假设，因为无法通过一个特殊的样本证明一个假设成立，但是可以用来拒绝一个命题
假设检验本质上在探讨如何通过拒绝原假设 $H_{0}$ 来接受备择假设 $H_{1}$

实际中通常将想要验证的命题作为备择假设 $H_{1}$ ，通过检验原假设 $H_{0}$ 是否被拒绝来判断是否接受 $H_1$

2. 单参数检验的三种类型与原假设的注意事项

最常见的三种单参数检验问题，以均值检验为例：

$H_{0}: \mu \leqslant \mu_{0} \leftrightarrow H_{1}: \mu>\mu_{0}$ 单边检验
$H_{0}: \mu \geqslant \mu_{0} \leftrightarrow H_{1}: \mu<\mu_{0}$ 单边检验
$H_{0}: \mu=\mu_{0} \leftrightarrow H_{1}: \mu \neq \mu_{0}$ 双边检验

以上问题的原假设有另一种更常见的表达方式

$H_{0}: \mu=\mu_{0} \leftrightarrow H_{1}: \mu>\mu_{0}$
$H_{0}: \mu=\mu_{0} \leftrightarrow H_{1}: \mu<\mu_{0}$
$H_{0}: \mu=\mu_{0} \leftrightarrow H_{1}: \mu \neq \mu_{0}$
这种写法与之前的写法并不互斥，但从结果上与前者等效

将欲验证的命题作为备择假设 $H_1$ ，并不是“准则”，部分假设检验的原/备择假设的设置时固定的

当检验某样本所在总体是否服从某个特定分布时（如正态性检验），通常会设置如下假设：

$H_{0}$ : 样本所在总体服从某分布 $\leftrightarrow H_{1}$ ：样本所在总体不服从某分布
在单参数检验中，等号只会出现在 $H_0$ 中，不会出现在 $H_1$ 中，即我们不会做这样的假设

$H_{0}: \mu \neq 110 \leftrightarrow H_{1}: \mu=110$

3. 临界值、拒绝域、显著性水平

临界值：

为给出拒绝原假设的标准，设立一个临界值 $C$ ，若实际样本计算出来的 $\bar{x}$ 满足 $\bar{x}-110>C$ ，就拒绝原假设

拒绝域

上述例子中的 $\bar{x}-110>C$ 也叫拒绝域，它可以被写成：

$\{\bar{x}: \bar{x}>110+C\}$
- 样本计算结果落入拒绝域，就拒绝原假设，否则不能拒绝原假设
拒绝域还可以直接用检验统计量与对应的分布分位点表示，这样更省时间，不用再计算临界值 $C$
$t>t_{n-1}(1-\alpha)$
- 以正态分布为例的图示
- 三种假设的分位点分别对应右侧分位点、左侧分位点、双侧分位点
- 对应代码为本小节第五点的第二小点

如何确定临界值 $C$ ？用概率确定

由于抽样具有随机性，凭借样本信息去判断总体的性质总是会有犯错的概率——即不论我们是否拒绝原假设 $H_0$ ，都有概率犯以下两类错误中的一种：
- 第一类错误：原假设 $H_{0}$ 为真，但是数据却落入了拒绝域 (因此做出拒绝 $H_{0}$ 的判断)。犯第一类错误的概率被称为拒真概率 $\alpha$
- 第二类错误：原假设 $H_{0}$ 为假，但是数据却没有落入拒绝域（因此做出接受 $H_{0}$ 的判断)。犯第二类错误的概率被称为受伪概率 $\beta$
由于两种犯错概率互相对立，因此采取折中方案——通常只限制犯第一类错误的概率 $\alpha$
再决定临界值时，要保证发生第一类错误的概率 $\alpha$ 在一个给定的、较小的水平（通常取 $\alpha=0.05 / 0.1$ ），此时 $\alpha$ 被称为显著性水平
确定临界值 $C$ 的标准是：原假设 $H_0$ 为真，但数据却落入拒绝域的概率恰好为给定的 $\alpha$ ，在上述例子中该概率可写为

$P_{H_{0} \text { is true }}\left(\bar{x}-\mu_{0}>C\right)=P(\bar{x}-110>C)=\alpha$

4. 用分布处理概率——构造检验统计量

将 $P(\bar{x}-110>C)$ 构造成某个分布的分位数形式，这样可以计算出临界值 $C$ ，概率实际为：

$P(\bar{x}-E(\bar{x})>C), E(\bar{x})=\mu_{0}=110$
由于 $\bar{x}$ 服从正态分布，可以构造t统计量：

$P(\bar{x}-E(\bar{x})>C)=P\left(\frac{\bar{x}-E(\bar{x})}{s}>\frac{C}{s}\right)=\alpha, \frac{\bar{x}-E(\bar{x})}{s} \sim t_{n-1}$

$\frac{C}{s}$ 恰好是 $t_{n-1}(1-\alpha)$ 分位点，对于确定的分布而言，分位点已知，求解出 $C$ ， $\cdot t_{n-1}(1-\alpha)$

代入公式有

$P\left(\frac{\bar{x}-E(\bar{x})}{s}>\frac{C}{s}\right)=P\left(\frac{\bar{x}-\mu_{0}}{s}>\frac{s \cdot t_{n-1}(1-\alpha)}{s}\right)$
$=P\left(\bar{x}>\mu_{0}+s \cdot t_{n-1}(1-\alpha)\right)=\alpha$

得出：只需 $\bar{x}>110+s \cdot t_{n-1}(1-\alpha)$ ，就可以在显著性水平 $\alpha$ 下拒绝原假设
假设检验思路：构造检验统计量——输出对应分布的分位点——计算临界值（拒绝域）——做出判断

上述例子中，检验统计量为：
$t=\frac{\bar{x}-\mu_{0}}{s}$
对应t分布的分位点为：
$t_{n-1}(1-\alpha)$
拒绝域为：
$\bar{x}>110+s \cdot t_{n-1}(1-\alpha)$

5. 结合代码

代码示例

## 加载包
import numpy as np
import pandas as pd
from scipy.stats import t

n=25 
x_bar=108.2
s=4
mu=110

# 计算检验统计量
tvalue=(x_bar-mu)
print('t值为：{}'.format(tvalue))

# 输出分位点
'''
ppf:单侧左分位点
isf:单侧右分位点
interval:双侧分位点
'''
#由于备择假设是大于号，因此应当选用单侧右分位点，0.05为显著性水平a，n-1为自由度
T_isf=t.isf(0.05,n-1)
# 如果备择假设是小于号，则应选用单侧左分位点ppf，里面的参数设置不变，依次为显著性水平a与分布自由度

print('分位点为：{}'.format(T_isf))
# 拒绝域
Deny_domain=110+s*T_isf
print('拒绝域的临界点为：{}'.format(Deny_domain))

# 判断
print('样本均值是否位于拒绝域：{}'.format(x_bar>Deny_domain))
print('因此，不能拒绝原假设，不能认为总体均值大于110.')

t值为：-1.7999999999999972
分位点为：1.7108820799094282
拒绝域的临界点为：116.84352831963771
样本均值是否位于拒绝域：False
因此，不能拒绝原假设，不能认为总体均值大于110.

利用拒绝域第二种方式来检验

# 直接用检验统计量与分布分位点判断
print('检验统计量是否位于拒绝域：{}'.format(tvalue>T_isf))

检验统计量是否位于拒绝域：False

假设利用Example.1中的数据进行双边检验
$H_{0}: \mu=110 \leftrightarrow H_{1}: \mu \neq 110$
则拒绝域为
$|t|>\left|t_{n-1}\left(1-\frac{\alpha}{2}\right)\right|$

# 进行双边检验
## 计算双侧分位点
T_int=t.interval(1-0.05,n-1) # 对于双侧检验（双侧分位点），分位点参数应该输入1-a，这里是1-0.05=0.95
print('检验统计量t的绝对值：{}'.format(np.abs(tvalue)))
print('双侧分位点：{}'.format(T_int))
print('显然，检验统计量不在拒绝域内，因此无法拒绝原假设')

检验统计量t的绝对值：1.7999999999999972
双侧分位点：(-2.0638985616280205, 2.0638985616280205)
显然，检验统计量不在拒绝域内，因此无法拒绝原假设

p值

采用拒绝域的方法进行假设检验有一个缺点：分位点值与显著性水平 $\alpha$ 是相关的。如果要在不同的显著水平下检验，就需要计算不同的分位点再比较，因此需要利用p值这个指标来判断是否拒绝原假设
p值是在确定的样本观测值下，给出的能拒绝原假设的最小显著性水平，只与样本观测值和我们做的假设检验有关。p值越小越可以拒绝原假设
- 例如：如果p值为0.001，比0.01的置信水平还要小，我们认为在0.01的置信水平下我们也可以拒绝原假设；而如果p值为0.025，比0.01的置信水平要大，但小于0.05，则我们认为在0.05的置信水平下我们可以拒绝原假设，但在0.01置信水平下不可以拒绝
$\mathrm{p}$ 值的形式与我们做的备择假设 $H_{1}$ 有关

若 $H_{1}$ 的符号为 $\neq$ ，则: $p v a l u e$ $=P(|X|>\mid$ Test statistics $\mid)$
若 $H_{1}$ 的符号为 $>$ ，则: $p v a l u e$ $= P (X >$ Test statistics $)$
若 $H_{1}$ 的符号为 $<$ ，则: $p u a l u e$ $= P (X <$ Test statistics $)$
- 其中 $X$ 为服从某个特定分布的变量，Test stastistics为前面提到的检验统计量
- p值本质上是一种累积概率，对于符号为 $>$ 的备择假设，p值则是右侧累积概率；对于符号为 $<$ 的备择假设，p值则是左侧累积概率；而对于相同的检验统计量Test statistics而言，双边检验的p值为某类单边检验的两倍

# 利用example.1的数据进行三种假设检验
# 利用p值进行假设检验
'''
sf:右尾累积概率
cdf:左尾累积概率
'''
# 若备择假设为mu>110
pvalue=t.sf(tvalue,n-1) 
print('备择假设为mu>110的p值为：{}'.format(pvalue))

# 若备择假设为mu<110
pvalue=t.cdf(tvalue,n-1)
print('备择假设为mu<110的p值为：{}'.format(pvalue))

# 若备择假设为mu不等于110
pvalue=t.cdf(tvalue,n-1)*2 # 之所以是左尾累积概率的两倍，是因为右尾累积概率大于0.5，而p值不可能大于1。
print('备择假设为mu不等于110的p值为：{}'.format(pvalue))

备择假设为mu>110的p值为：0.9577775745385242
备择假设为mu<110的p值为：0.042222425461475775
备择假设为mu不等于110的p值为：0.08444485092295155

使用p值进行假设检验在实际应用中更常见，python中进行假设检验的所有包都会输出检验统计量与p值

1.1.3 假设检验的基本步骤——基于p值

确定备择假设 $H_1$ ，备择假设的符号决定我们使用何种累积概率
明确检验统计量Test statistics的公式，不同假设检验都有其确定的检验统计量
明确检验统计量所服从的分布，这样我们才能算累积概率
根据备择假设 $H_1$ 与检验统计量Test statistics计算p值
将p值与显著性水平 $\alpha$ 比较，若 $p>\alpha$ ，则不能拒绝原假设；若 $p<\alpha$ ，则可以拒绝原假设

1.2 假设检验的分类

2 一元数值数据假设检验

本部分内容覆盖一元数值数据中的组间均值假设检验的内容，学习如何通过样本数据对其所在总体的均值的性质进行检验

2.1 正态性检验

由于参数检验比非参数检验更灵敏，因此数据若是正态分布的，应该使用参数检验
以下三种方法可以帮助判断数据的正态性

2.1.1 概率图

原理：对于一个给定的样本数据集，概率图会先将数据 $x$ 从小到大排序，并计算排序后数据 $x$ 对应的分布分位数
图示表达：

横轴：分位数；纵轴：有序样本值
若数据大致服从目标分布，则数据点会近似地沿着 $y = x$ 分布。若数据不服从目标分布，则会观察到数据点偏离线 $y = x$

代码演示

# 生成1000个服从正态分布的数据
data_norm = stats.norm.rvs(loc=10, scale=10, size=1000) # rvs(loc,scale,size):生成服从指定分布的随机数，loc：期望；scale：标准差；size：数据个数
# 生成1000个服从卡方分布的数据
data_chi=stats.chi2.rvs(2,3,size=1000)

# 画出两个概率图
fig=plt.figure(figsize=(12,6))
ax1=fig.add_subplot(1,2,1)
plot1=stats.probplot(data_norm,plot=ax1) # 正态数据
ax2=fig.add_subplot(1,2,2)
plot2=stats.probplot(data_chi,plot=ax2) # 卡方分布数据

结果分析：正态性数据在正态分布概率图中十分接近直线 $y = x$ ，而卡方分布数据几乎完全偏离该直线
图示

2.1.2 两种正态性检验

正态性检验的两个假设如下： $H_0:\text{样本所在总体服从正态分布}\leftrightarrow H_1:\,\text{样本所在总体不服从正态分布}$
两种检验方案对比

名称	适用问题	原因	样本量适用范围
Shapiro-Wilk检验	小样本正态性检验	该检验在每一个样本值都是唯一时的检验效果最好	样本量最低为8，＜50最佳，＜2000效果较好，＞5000不再适用
D’Agostino’s K-squared test	大样本正态性检验	分布曲线的偏度和峰度容易受到数据量的影响，数据量越大，偏度与峰度的计算就越准确	样本量最低为4，除此以外越大越好

D’Agostino’s K-squared test原理：通过计算偏度（Skewness）和峰度（Kurtosis）来量化数据分布曲线与标准正态分布曲线之间的差异与不对称性，然后计算这些值与正态分布期望值的之间的不同程度

2.1.3 同时使用多种方法判断正态性

使用多种方法判别的原因：实际应用中由于数据复杂性，使用一种方法可能会产生误差，此时需要观察数据的特征，寻找结果不一致的原因

代码示例

data_small = stats.norm.rvs(0, 1, size=30) # 小样本正态性数据集
data_large = stats.norm.rvs(0, 1, size=6000) # 大样本正态性数据集

# 定义一个正态性检验函数，它可以输出：
## 正态概率图
## 小样本Shapiro-Wilk检验的p值
## 大样本D'Agostino's K-squared检验的p值

from statsmodels.stats.diagnostic import lilliefors
from typing import List

def check_normality(data: np.ndarray, show_flag: bool=True) -> List[float]:
    """
    输入参数
    ----------
    data : numpy数组或者pandas.Series
    show_flag : 是否显示概率图
    Returns
    -------
    两种检验的p值；概率图
    """
    if show_flag:
        _ = stats.probplot(data, plot=plt)
        plt.show()

    pVals = pd.Series(dtype='float64')
    # D'Agostino's K-squared test
    _, pVals['Omnibus'] = stats.normaltest(data) 

    # Shapiro-Wilk test
    _, pVals['Shapiro-Wilk'] = stats.shapiro(data)

    print(f'数据量为{len(data)}的数据集正态性假设检验的结果 : ----------------')
    print(pVals)

check_normality(data_small,show_flag=True)

check_normality(data_large,show_flag=False) # 当样本量大于5000，会出现警告

2.2 均值检验

一元数值样本的总体均值的检验，每种均值检验都会有相应的参数检验（t检验）与非参数检验

2.2.1 单组样本均值假定的检验

单组样本均值假定的检验：检验一个样本所在总体的均值是否和一个参考值相等
Example.2：10名同学的成绩：136,136,134,136,131,133,142,145,137,140，目标均分137。判断班级（人数＞10）均分与目标均分是否有差距

1. 单样本t检验（One Sample t-test）

t检验要求总体服从正态分布，即有 $x\sim N\left( \mu ,\sigma ^2 \right)$

在t检验中，总体的标准差 $\sigma$ 不需要事先知道，与z检验不同，因此t检验应用更广

使用p值进行假设检验的基本流程（按照1.1.3）

单样本t检验的两个假设为： $H_0:\mu =\mu_0\leftrightarrow H_1:\mu \ne \mu_0\,$
对应的检验统计量为： $Test\,\,statistics=\frac{\bar{x}-\mu _0}{s}$
检验统计量服从的分布为： $Test\,\,statistics\sim t_{n-1}$ 其中， $n$ 为样本量
可以根据以上信息计算p值（Python中也有相应的api）

2. wilcoxon符号秩和检验

若样本数据非正态，应使用wilcoxon符号秩和检验。该检验是非参数检验
什么是“秩”。设 $x_1,\cdots ,x_n$ 为来自连续分布的简单随机样本，将它们从小到大排序，得到有序样本 $x_{\left( 1 \right)}\leqslant \cdots \leqslant x_{\left( n \right)}$ 。观测值 $x_i$ 在有序样本中的序号 $r$ 被称为 $x_i$ 的秩。秩其实就是样本值 $x_i$ 在所有样本中“第几小”的意思
秩和检验，要有“秩的和”

设 $x_1,\cdots ,x_n$ 为样本，对它们做绝对值变换，记 $R_i$ 为 $x_i|$ 在 $\left( |x_1|,\cdots ,|x_n| \right)$ 的秩

记 $I\left(x_{i}>0\right)=\left\{\begin{array}{ll} 1, & x_{i}>0 \\ 0, & x_{i} \neq 0 \end{array}\right.$

则称 $W^{+}=\sum_{i=1}^{n} R_{i} I\left(x_{i}>0\right)$ 为秩和统计量
单样本均值比较的wilcoxon符号秩和检验的两个假设依旧为 $H_0:\mu =\mu_0\leftrightarrow H_1:\mu \ne \mu_0\,$

对于待分析样本 $x_1,\cdots ,x_n$ ，让所有样本减去对比值 $\mu_0$ ，得： $x_1-\mu_0,\cdots ,x_n-\mu_0$ ，计算出它们的秩和统计量 $W^{+}$

然后，检验统计量便可以计算为 $Test\,\,statistics=\frac{W^{+}-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2 n+1)}{24}}}$ 检验统计量近似服从分布 $Test\,\,statistics\rightarrow N\left( 0,1 \right)$ 其中， $n$ 为样本量

最后，p值的计算与备择假设 $H_1$ 的符号有关，这一点与t检验相同（Python中也有相应的api）
该方法最好在样本量＞25的情况下使用，这样检验统计量才近似服从正态分布

3. 代码

data=np.array([136,136,134,136,131,133,142,145,137,140])
# 定义一个单组样本均值检验函数，使它可以同时输出t检验与wilcoxon符号秩和检验的p值
def check_mean(data,checkvalue,confidence=0.05,alternative='two-sided'):        
    '''
    输入参数
    ----------
    data : numpy数组或者pandas.Series
    checkvalue : 想要比较的均值
    confidence : 显著性水平
    alternative : 检验类型，这取决于我们备择假设的符号:two-sided为双侧检验、greater为右侧检验、less为左侧检验

    输出
    -------
    在两种检验下的p值
    在显著性水平下是否拒绝原假设
    '''
    pVal=pd.Series(dtype='float64')
    # 正态性数据检验-t检验
    _, pVal['t-test'] = stats.ttest_1samp(data, checkvalue,alternative=alternative)
    print('t-test------------------------')
    if pVal['t-test'] < confidence:
      print(('目标值{0:4.2f}在显著性水平{1:}下不等于样本均值(p={2:5.3f}).'.format(checkvalue,confidence,pVal['t-test'])))
    else:
      print(('目标值{0:4.2f}在显著性水平{1:}下无法拒绝等于样本均值的假设.(p={2:5.3f})'.format(checkvalue,confidence,pVal['t-test'])))

    # 非正态性数据检验-wilcoxon检验
    _, pVal['wilcoxon'] = stats.wilcoxon(data-checkvalue,alternative=alternative)
    print('wilcoxon------------------------')    
    if pVal['wilcoxon'] < confidence:
      print(('目标值{0:4.2f}在显著性水平{1:}下不等于样本均值(p={2:5.3f}).'.format(checkvalue,confidence,pVal['wilcoxon'])))
    else:
      print(('目标值{0:4.2f}在显著性水平{1:}下无法拒绝等于样本均值的假设.(p={2:5.3f})'.format(checkvalue,confidence,pVal['wilcoxon'])))
    
    return pVal
check_mean(data,137,0.05)

输出

2.2.2 两组样本的均值相等性检验

在对两组间的均值进行比较前，我们需要判断：这两组样本间是否独立？

1. 组别间独立

Example.3：Ex2中的班级A有竞争班级B，班级B部分12名同学成绩为：134,136,135,145,147,140,142,137,139,140,141,135。是否可认为两个班级的均分相等？这是一个典型的双独立样本的均值检验问题

这里的“独立”指的是抽样意义上的独立，而非统计意义的独立——只需保证这两个班级的样本在选取时是“现实上”的互不影响，并不关心两者在数值上是否独立（通过独立性检验判断的独立性）
抽样意义上独立的解释：两个样本中，一个样本中的受试不能影响另一个样本中的受试
在Ex2和Ex3中，两个班级的授课老师不同，因此两个班学生的成绩不会受到同一个老师的影响；两个班级考试同时进行，不存在泄题行为。可以认为这是两个独立的样本
实际上，两个样本是否在抽样意义上独立，没有固定答案，很多情况下，我们既不能保证两个样本间完全独立，也很难判断出两者是否存在相关性

双样本t检验（Two Sample t-test）

若两个样本的总体都服从正态分布，那么可以使用双样本t检验
双样本t检验有两个分类
- 总体的标准差 $\sigma$ 相等
- 总体的标准差 $\sigma$ 不相等
- 这两种情况下的检验统计量不相同，服从的t分布的自由度也不相同。
两种检验的假设问题是相同的： $H_0:\mu _x=\mu _y\leftrightarrow H_1:\mu _x\ne \mu _y\,$
若两个样本的总体方差相等，则检验统计量为 $Test\,\,statistics=\frac{\bar{x}-\bar{y}}{s_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\,\,, s_w=\sqrt{\frac{1}{m+n-2}\left[ \sum_{i=1}^m{\left( x_i-\bar{x} \right) ^2+\sum_{i=1}^n{\left( y_i-\bar{y} \right) ^2}} \right]}$
- 检验统计量服从分布 $Test\,\,statistics\sim t_{n+m-2}$ 其中， $m$ 为样本 $x$ 的样本量， $n$ 为样本 $y$ 的样本量
若两个样本的总体方差不相等，则检验统计量为 $Test\,\,statistics=\frac{\bar{x}-\bar{y}}{\sqrt{\frac{s_{x}^{2}}{m}+\frac{s_{y}^{2}}{n}}}\,$
- 检验统计量近似服从分布 $Test\,\,statistics\rightarrow t_l\,\,, l=\frac{\left( \frac{s_{x}^{2}}{m}+\frac{s_{y}^{2}}{n} \right) ^2}{\frac{s_{x}^{2}}{m^2\left( m-1 \right)}+\frac{s_{y}^{2}}{n^2\left( n-1 \right)}}$
在大多数情况下，总体的信息是很难知晓的，即我们很难知道两个总体的标准差是否相等，这时我们可以用方差齐性检验levene检验进行判断。

Mannwhitneyu秩和检验

Mannwhitneyu秩和检验也是一种非参数检验
做法：首先将两类样本混合在一起，对所有样本按照所考察的特征从小到大排序。在两类样本中分别计算所得排序序号之和 $T_1$ 和 $T_2$ ，我们将之称作秩和
基本思想：如果一类样本的秩和显著地比另一类小（或大），则两类样本在所考察的特征上有显著差异
值得注意，秩和检验与符号秩和检验不同：前者不考虑符号的问题，后者考虑符号问题

代码

# 定义一个单组样本均值检验函数，使它可以同时输出t检验与mannwhitneyu检验的p值
def unpaired_data(group1:np.ndarray,group2:np.ndarray,confidence=0.05,alternative='two-sided'):
    """ 
    输入参数
    ----------
    group1/2 : 用于比较的两组数据
    confidence : 显著性水平
    alternative : 检验类型，这取决于我们备择假设的符号:two-sided为双侧检验、greater为右侧检验、less为左侧检验
    输出
    -------
    在两种检验下的p值
    在显著性水平下是否拒绝原假设
    """
    pVal=pd.Series(dtype='float64')

    # 先进行两组数据的方差齐性检验
    _,pVal['levene']=stats.levene(group1,group2)


    # t检验-若数据服从正态分布
    if pVal['levene']<confidence:
        print('在显著性水平{0:}下，两组样本的方差不相等(p={1:.4f})，因此需要使用方差不等的t检验'.format(confidence,pVal['levene']))
        print('------------------------------------')
        _, pVal['t-test'] = stats.ttest_ind(group1, group2,equal_var=False,alternative=alternative) # 因为方差不相等，因此是False
        print('t检验p值：{}'.format(pVal['t']))
    else:
        print('在显著性水平{0:}下，不能拒绝两组样本方差相等的假设(p={1:.4f})，因此需要使用方差相等的t检验'.format(confidence,pVal['levene']))
        print('------------------------------------')
        _, pVal['t-test'] = stats.ttest_ind(group1, group2,equal_var=True,alternative=alternative) # 因为方差相等，因此是True     
        print('t检验p值：{:.3f}'.format(pVal['t-test']))   
    

    # mannwhitneyu检验-数据不服从正态检验
    _, pVal['mannwhitneyu'] = stats.mannwhitneyu(group1, group2,alternative=alternative)
    print('Mann-Whitney检验p值：{:.3f}'.format(pVal['mannwhitneyu']))
    # --- >>> STOP stats <<< ---
    
    # 两组样本均值的散点图可视化
    print('------------------------------------')
    print('两组样本均值的散点图可视化')
    plt.plot(group1, 'bx', label='group1')
    plt.plot(group2, 'ro', label='group2')
    plt.legend(loc=0)
    plt.show()
    
    return pVal

# A班级
group1=data
# B班级
group2=np.array([134,136,135,145,147,140,142,137,139,140,141,135])

unpaired_data(group1,group2)

结果

2. 成对组别

在进行两组间均值比较时，有一种特殊情况——两个样本“故意”不独立

这种情况多出现两个样本分别为同一个受试个体不同时间的受试结果，这两个样本是“成对”的，是紧密相连的
对这样两个样本进行均值比较检验，就是成对检验

Example4：A班经过训练后再次考试，依旧抽取与上次相同的十名同学成绩：139,141,137,136,135,132,141,148,145,139。这次班级均分与上次是否存在显著差异呢？

两个样本分别为相同的同学前后两次的考试成绩，是非常典型的成对数据，因此我们可以使用成对检验

成对检验有两种

若总体服从正态分布，则使用成对t检验
若总体不服从正态分布，则使用成对wilcoxon秩和检验

成对t检验

成对检验与独立双样本检验的假设问题是一样的 $H_0:\mu _x=\mu _y\leftrightarrow H_1:\mu _x\ne \mu _y\,$
事实上，成对t检验本质上是检验 $\mu_x-\mu_y$ 的差值是否为0的单样本均值t检验，检验统计量可以按照单样本均值t检验的检验统计量构造，只不过变量换成了 $x - y$ ，目标值为0
检验统计量为： $Test\,\,statistics=\frac{\bar{x}-\bar{y}}{s_d}\,\,, d=x-y$
检验统计量服从分布： $Test\,\,statistics\sim t_{n-1}$ 其中， $n$ 为样本量

成对wilcoxon符号秩和检验

和成对t检验相同，成对wilcoxon符号秩和检验本质上就是前面的单样本wilcoxon符号秩和检验，变量也是换成了 $x - y$ ，目标值为0

代码

def paired_data(group1:np.ndarray,group2:np.ndarray,confidence,alternative='two-sided'):
    """
    输入参数
    ----------
    group1/2 : 用于比较的两组数据，注意，两组数据的样本顺序必须相同
    confidence : 显著性水平
    alternative : 检验类型，这取决于我们备择假设的符号:two-sided为双侧检验、greater为右侧检验、less为左侧检验

    输出
    -------
    在两种检验下的p值
    在显著性水平下是否拒绝原假设
    """
    pVal=pd.Series(dtype='float64')

    # 配对t检验-样本服从正态分布
    _, pVal['t-test'] = stats.ttest_1samp(post - pre, 0,alternative=alternative)
    print('t-test------------------------')
    if pVal['t-test'] < confidence:
      print(('在显著性水平{0:}下，两组配对样本的均值不相等(p={1:5.3f}).'.format(confidence,pVal['t-test'])))
    else:
      print(('在显著性水平{0:}下无法拒绝等于样本均值的假设.(p={1:5.3f})'.format(confidence,pVal['t-test'])))    

    # wilcoxon秩和检验
    _, pVal['wilcoxon'] = stats.wilcoxon(group1,group2, mode='approx',alternative=alternative)
    print('wilcoxon------------------------')
    if pVal['wilcoxon'] < confidence:
      print(('在显著性水平{0:}下，两组配对样本的均值不相等(p={1:5.3f}).'.format(confidence,pVal['wilcoxon'])))
    else:
      print(('在显著性水平{0:}下无法拒绝等于样本均值的假设.(p={1:5.3f})'.format(confidence,pVal['wilcoxon'])))    
    
    return pVal

# 第一次测验
pre=data
# 第二次测验
post=np.array([139,141,137,136,135,132,141,148,145,139])

paired_data(pre,post,0.05)

输出结果
两种检验都显示两次测验的均分在显著性水平0.05下有显著差异，根据双边检验的p值是某侧单边检验两倍的结论，可以推测出第二次测验的均分均值显著地高于第一次测验均分

2.2.3 方差分析-多组样本间的均值相等性检验

方差分析(Analysis of variance，ANOVA)：对多个总体的均值做比较检验的统计方法

1. 单因素方差分析

单/多因素方差分析中的因素含义：

问题举例：
1. 四种不同商标的同一类型产品的质量指标是否一致
2. 对同样的商品，采取三种不同的销售方式是否会导致显著不同的销售量
3. 五个不同居民区的居民购买力是否存在显著差异。
商标、销售方式、居民区这些区分不同组别的依据就是因素（也叫因子），通常用大写字母 $A, B, C$ 等表示这些因素，而一个因素所处的不同的状态被称为水平，用 $A_1,A_2$ 等表示
这三个例子中，因素都只有一个，它们都是单因素方差分析；若因素有多个，则被称为多因素方差分析

对于单因素方差分析而言，进行比较的样本个数，本质上就是该因素的水平个数

在举例a中，比较的是四个商标不同的产品质量指标样本均值（所在总体的均值），在该例中，因素“商标”的因子水平个数为4

方差分析的多个总体均值该如何比较？并非两两相互比较，而是同时比较，写出假设检验的形式有：

$H_0:\mu _1=\mu _2=\mu _i=\cdots \mu _k\leftrightarrow H_1: \mu _i\text{不全相等}$ 其中， $k$ 为样本个数（因子水平个数）

总体均值不全相等的情形：

方差分析的假设

方差分析需要满足的假设：
1. 每个样本的总体均为正态总体
2. 各总体的标准差相同
3. 从每个总体中抽取的样本相互独立
若样本满足以上条件，方差分析的结果是准确的。但在大样本下，就算不满足假设1与假设2，方差分析的结果也是稳健的

方差分析的思想

既然我们检验的是不同总体的均值是否相等，那么很自然便想观测各样本的样本均值的“差异程度”，如果各样本的均值差异很大，那么它们的总体均值也有很大可能存在差异
**样本间均值的“差异程度”**是一个很好的评判指标，但这并不足够，还有一个指标也十分重要：各样本的样本内差异程度
在相同的样本间差异程度下，样本内差异程度越大，各总体间均值存在差异的可能性就越小，为什么呢？简单来说，就是样本内差异程度越大，“偶然性”越大，我们越难判断两个不相等的均值是否真的不相等

举例来说：

小红均分是91，小刚均分是89，考试成绩如下表所示：

次数	小红分数	小刚分数	样本内部标准差	样本内部方差	两者均值差
A	91	89	0	0	2
B1	79	93	6	36	2
B2	94	70	6	36	2

在情况A下，可以很容易判断两人均分存在明显差异
在情况B下，高达36的方差，2分的均值差没有说服力
在该例子中，当小红小刚这两个样本的样本内差异程度过大，即便在样本间均值的差异程度相同时，结果依然不具有可信度

原理解析

记 $y_{ij}$ 为第 $i$ 个样本的第 $j$ 个样品，假设有r个样本，每个样本的样品数量都同为 $m$ ，于是我们有 $r\times m$ 个样品： $y_{i j}, \quad i=1,2, \cdots, r, \quad j=1,2, \cdots, m,$

既然要研究“差异程度”，那么观察每个样本值 $y_{ij}$ 与平均值的偏差一定是必不可少的
数据 $y_{ij}$ 与所有数据的总平均 $\bar{y}$ 的偏差可用 $y_{ij}-\bar{y}$ 表示，这个总偏差可以解构为两个偏差之和： $y_{ij}-\bar{y}=\left( y_{ij}-\bar{y}_{i·} \right) +\left( \bar{y}_{i·}-\bar{y} \right)$
- $\bar{y}_{i·}$ 为因素 $A$ 在第 $i$ 个水平下的样本均值（或者就是第 $i$ 个样本的均值）。
- $y_{ij}-\bar{y}_{i·}$ 被称为组内偏差，它反映了第 $i$ 个样本的组内数据与组内平均值的随机误差
- $\bar{y}_{i·}-\bar{y}$ 被称为组间偏差，除了反映随机误差外，还反映了第 $i$ 个的总体均值与全总体均值的差值，可以理解为因素 $A$ 的第 $i$ 个水平带来的主效应。
- 以上两种偏差分别对应前面所提到的样本内差异程度与样本间均值的差异程度
完成对一个样本值与平均值偏差的解构后，接下来将所有的偏差汇总起来，计算总的“差异程度”
各 $y_{ij}$ 间总的差异大小可以用总偏差平方和 $S_T$ 表示 $S_{T}=\sum_{i=1}^{r} \sum_{j=1}^{m}\left(y_{i j}-\bar{y}\right)^{2}, \quad f_{T}=n-1$
仅由随机误差引起的数据间差异可用组内偏差平方和 $S_e$ 表示

$S_{e}=\sum_{i=1}^{r} \sum_{j=1}^{m}\left(y_{i j}-\bar{y}_{i} .\right)^{2}, \quad f_{e}=r(m-1)=n-r .$
由于效应不同引起的数据差异可用组间偏差平方和 $S_A$ 表示

$S_{A}=m \sum_{i=1}\left(\bar{y}_{i} .-\bar{y}\right)^{2}, \quad f_{A}=r-1$ 其中， $f$ 为它们各自的自由度

以上三种偏差平方和的大小和数据的个数（或者自由度）有关，通常而言，数据越多，偏差平方和越大，这不利于进行偏差平方和之间的比较。因此需要统一它们的“量纲”
定义： $S_{A}=\frac{S_{A}}{f_{A}}, \quad M S_{e}=\frac{S_{e}}{f_{e}}$

然后将两者相除，就可以判断多组样本的均值是否相等

单因素方差分析检验统计量： $Test\,\,statistics=\frac{MS_A}{MS_e}$
检验统计量服从分布： $Test\,\,statistics\sim F\left( f_A,f_e \right)$
p值计算： $pvalue=P\left( F>Test\,\,statistics \right)$

尽管方差分析做的是多均值的“相等性”检验，它的p值并不是双边检验，而是单边检验
之前所说看备择假设的符号判断p值的形式只适用于单样本与双样本均值检验

kruskalwallis检验——非正态性检验

尽管在大样本下，非正态性数据的方差分析也是稳健的，但是在小样本下，对非正态性数据做方差分析还是可能存在误差
此时，我们可以使用kruskalwallis检验。该检验也是一种非参数检验

代码实操：对altman_910.txt数据集进行方差分析。该数据记录了3组心脏搭桥病人给予不同水平的一氧化氮通气下，他们的红细胞内叶酸水平。注：三组样本都是正态性样本

data = np.genfromtxt('./data/altman_910.txt', delimiter=',') 
group1 = data[data[:,1]==1,0]
group2 = data[data[:,1]==2,0]
group3 = data[data[:,1]==3,0]
group1

from typing import Tuple

def anova_oneway() -> Tuple[float, float]:

    pVal=pd.Series(dtype='float64')

    # 先做方差齐性检验
    _,pVal['levene'] = stats.levene(group1, group2, group3)
    if pVal['levene']<0.05: #这里假设显著性水平为0.05
        print('警告: 方差齐性检验的p值小于0.05: p={}，方差分析结果在小样本下可能不准确'.format(pVal['levene']))
        print('-------------------------------')

    # 单因素方差分析-假设样本服从正态分布
    _, pVal['anova_oneway_normal'] = stats.f_oneway(group1, group2, group3) # 在这里输入待分析的数据
    
    print('若样本服从正态分布，单因素方差分析的p值为{}'.format(pVal['anova_oneway_normal']))
    if pVal['anova_oneway_normal'] < 0.05:
        print('检验在0.05的显著性水平下显著，多组样本中至少存在一组样本均值与其它样本的均值不相等。')

    print('---------------------------------')

    # 单因素方差分析-假设样本不服从正态分布
    _, pVal['anova_oneway_notnormal'] = stats.mstats.kruskalwallis(group1, group2, group3) # 在这里输入待分析的数据
    
    print('若样本不服从正态分布，单因素方差分析的p值为{}'.format(pVal['anova_oneway_notnormal']))
    if pVal['anova_oneway_notnormal'] < 0.05:
        print('检验在0.05的显著性水平下显著，多组样本中至少存在一组样本均值与其它样本的均值不相等。')    

    return pVal

anova_oneway()

输出
两种检验的结果相差很大，若满足正态性假设，ANOVA的灵敏度优于kruskalwallis检验，因此我们在进行方差分析前最好做一次正态性检验

2. 双因素分析

尽管单因素方差分析具备比较多个总体均值的功能，但其实它的本质是探究因素 $A$ 是否显著。若显著，则意味着这些总体均值的不相等是因为因素 $A$ 导致的；若不显著，则意味着因素 $A$ 不能导致他们不相等。
如果我们将因素个数提升至两个，此时方差分析就变为了双因素方差分析

双因素方差分析不仅仅探究两个因素是否显著，还要探究两个因素的交互项是否显著
对于这种多因素的方差分析，借用线性回归模型来解决问题可以事半功倍

实例讲解：测量婴儿头围hs

现在有3个婴儿的头围需要测量，我们想知道他们的头围有无显著的区别。注意，如果我们只探究这个问题，则此时就是单因素方差分析，探究的是（因素：婴儿fetus）对头围的是否有显著性影响
人工测量总是有误差的。为了保证客观性，我们请了四位观察者observer，让他们对每个婴儿的头围重复测量重复测量三次，并记录每一次测量的结果，此时，我们总共会得到36个样品。我们将（因素：observer）也纳入考量，同时考量两个因素以及他们的交互项的显著性
如果观察者因素没有显著差别，就说明观察者观察的结果很一致；反之，他们观察的差距非常大，可能要另外寻找其他的观察者
代码示例

# statsmodel包分析的对象更多的是dataframe，前面的分析对象多为数组，这一点需要注意。
data = np.genfromtxt('./data/altman_12_6.txt', delimiter=',')
df = pd.DataFrame(data, columns=['hs', 'fetus', 'observer'])

import statsmodels.api as sm
from statsmodels.stats.anova import anova_lm

lm = sm.formula.ols('hs~C(fetus)+C(observer)+C(fetus):C(observer)',data=df).fit()
# 将待分析的因变量放在~左侧，因素放在~右侧
# 因素用C()括起来，交互项使用:将两者联系在一起。
anovaResults = anova_lm(lm) # 方差分析
print(anovaResults)# 3. 多元数值向量的假设检验

结果输出

                        df      sum_sq     mean_sq            F        PR(>F)
C(fetus)               2.0  324.008889  162.004444  2113.101449  1.051039e-27
C(observer)            3.0    1.198611    0.399537     5.211353  6.497055e-03
C(fetus):C(observer)   6.0    0.562222    0.093704     1.222222  3.295509e-01
Residual              24.0    1.840000    0.076667          NaN           NaN

直接观察最后的p值：婴儿因素与观察者因素都显著，但是两者的交互项不显著，这说明三个婴儿的头围确实存在差异，但是观察者差异也很大，且没有一个单独的观察者对特定的一个胎儿有显著影响

你可能感兴趣的:(数据分析,学习,机器学习,概率论)

《Operating System Concepts》阅读笔记：p449-p459 操作系统
《OperatingSystemConcepts》学习第35天，p449-p459总结，总计11页。一、技术总结1.NVM&SSDFlash-memory-basedNVMisfrequentlyusedinadisk-drive-likecontainer,inwhichcaseitiscalledasolid-statedisk(SSD)(Figure11.3)。2.HDDScheduling
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
常见FUZZ姿势与工具实战：从未知目录到备份文件漏洞挖掘 w2361734601 web安全安全
本文仅供学习交流使用，严禁用于非法用途。未经授权，禁止对任何网站或系统进行未授权的测试或攻击。因使用本文所述技术造成的任何后果，由使用者自行承担。请严格遵守《网络安全法》及相关法律法规！目录本文仅供学习交流使用，严禁用于非法用途。未经授权，禁止对任何网站或系统进行未授权的测试或攻击。因使用本文所述技术造成的任何后果，由使用者自行承担。请严格遵守《网络安全法》及相关法律法规！一、FUZZ技术概述二、
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
2020 年 9 月大学英语四级考试真题（第 1 套）——纯享题目版 fo安方英语—四级CET4 四级英语学习
个人主页：fo安方的博客✨个人简历：大家好，我是fo安方，目前中南大学MBA在读，也考取过HCIECloudComputing、CCIESecurity、PMP、CISP、RHCE、CCNPRS、PEST3等证书。兴趣爱好：b站天天刷，题目常常看，运动偶尔做，学习需劳心，寻觅些乐趣。欢迎大家：这里是CSDN，是我记录我的日常学习，偶尔生活的地方，喜欢的话请一键三连，有问题请评论区讨论。导读页：这是
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
OWL - 优化劳动力学习的通用智能体小众AI AI开源学习人工智能 AI编程
GitHub：https://github.com/camel-ai/owl更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIOWL是一个前沿的多智能体协作框架，推动任务自动化的边界，构建在CAMEL-AIFramework。愿景是彻底变革AI智能体协作解决现实任务的方式。通过利用动态智能体交互，OWL实现了跨多领域更自然、高效且稳健的任务自动化。OWL在GAIA
【Linux】Linux下调试器gdb的使用安度因 Linux linux 运维服务器测试工具调试
作者主页：@安度因学习社区：StackFrame专栏链接：Linux文章目录一、前言二、铺垫三、指令集和使用1、指令集2、演示四、结语如果无聊的话，就来逛逛我的博客栈吧!一、前言前几篇Linux博客中，我们分别学习了与编辑、编译、自动化构建代码、上传代码的工具。而今天，我们将学习最后一个工具——Linux下的调试器gdb
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
【AI大模型应用开发】RAG-Fusion框架：忘掉 RAG，未来是 RAG-Fusion 同学小张大模型人工智能笔记 chatgpt agi embedding RAG prompt
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习C++进阶、OpenGL、WebGL知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。RAG目前很火，但是也有一些不足的地方。有不足就有改进方法。本文我们来看一个方法：RAG-Fusion，理解其原理，并看一下其实现源码。文章目录0.RAG的不足1.RAG-Fusion原理概述2.步骤拆解与代码示例2.1
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
30岁了，零基础想转行网安从头开始现实吗？白帽子凯哥哥 tcp/ip 安全 web安全学习网络
这篇文章没有什么套路。就是一套自学理论和方向，具体的需要配合网络黑白去学习。毕竟是有网络才会有黑白！有自学也有培训！1.打死也不要相信什么分分钟钟教你成为大黑阔的，各种包教包会的教程,就算打不死也不要去购买那些所谓的盗号软件之类的东西。2，我之前让你们在没有目的的时候学习linux,在学习LINUX的同时你第一个遇到的问题就是命令。作为一个黑客入门着来说你必须要懂什么是命令化系统,什么是图形化系统
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【存储中间件】Redis核心技术与实战（六）：Redis的设计与实现（缓存淘汰算法、过期策略与惰性删除）道友老李 #Redis核心技术与实战架构师进阶-存储中间件缓存中间件 redis
文章目录Redis的设计与实现缓存淘汰算法maxmemoryNoevictionvolatile-lruvolatile-ttlvolatile-randomallkeys-lruallkeys-randomLRU算法近似LRU算法LFU算法为什么Redis要缓存系统时间戳过期策略和惰性删除过期惰性删除lazyfree个人主页：道友老李欢迎加入社区：道友老李的学习社区Redis的设计与实现缓存淘汰
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
12.1-12.7学习周报谢m鑫天天揍我学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract一、k-近邻法二、持续学习总结摘要本周主要学习了k邻近算法的原理和应用场景，了解了持续学习的有关概念和原理。AbstractThisweek,wemainlylearnedtheprinciplesandapplicationscenariosofk-proximityalgorithm,andlearne
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
SVN学习无妄无望工具使用 svn 学习
1、SVN是什么SVN（Subversion）是一个开源的版本控制系统，用于跟踪文件和目录的更改。它允许团队协作开发项目，管理代码的版本历史，并支持多人同时对代码进行修改和提交。SVN是集中式版本控制系统（CVCS）的代表之一，与Git（分布式版本控制系统）不同，SVN的代码库通常存储在一个中央服务器上。SVN的主要特点版本控制：记录文件和目录的每一次更改，支持版本回溯和历史查看。多人协作：允许多
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
笔记：代码随想录算法训练营day57：99.岛屿数量深搜、岛屿数量广搜、100.岛屿的最大面积 jingjingjing1111 深度优先算法笔记
学习资料：代码随想录注：文中含大模型生成内容99.岛屿数量卡码网题目链接（ACM模式）先看深搜方法：找到未标标记过的说明找到一片陆地的或者一片陆地的一个角落，dfs搜索是寻找相连接的陆地其余部分并做好标记#include#includeusingnamespacestd;intdirection[4][2]={0,1,-1,0,0,-1,1,0};voiddfs(constvector>&B612
笔记：代码随想录算法训练营day56:图论理论基础、深搜理论基础、98. 所有可达路径、广搜理论基础 jingjingjing1111 笔记
学习资料：代码随想录连通图是给无向图的定义，强连通图是给有向图的定义朴素存储：二维数组邻接矩阵邻接表：list基础知识：C++容器类|菜鸟教程深搜是沿着一个方向搜到头再不断回溯，转向；广搜是每一次搜索要把当前能够得到的方向搜个遍深搜三部曲：传入参数、终止条件、处理节点+递推+回溯98.所有可达路径卡码网题目链接（ACM模式）先是用邻接矩阵，矩阵的x,y表示从x到y有一条边主要还是用回溯方法遍历整个
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
Mac上传本地项目文件夹到远程Github个人仓库的方法及常见报错处理 Uzw Git Mac git github mac
最近写NER模型的同时学习参悟了一个开源的项目，做了一些Comments改了点分词规则，打算上传到个人Github仓库，上一次本地上传还是用Windows系统，换了Mac发现有一些规则不能用了，好久不用Git都忘光了…上传过程中报错无数，在此一并总结啦！文章目录Prerequisite上传本地文件夹到Github步骤报错问题描述及解决方法1.You‘veaddedanothergitreposit
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option