皓皓家的

统计学——几种常见的假设检验

1、什么是假设检验？

假设检验(hypothesis testing)，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

假设检验的步骤

①确定要进行检验的假设，包括原假设 $H_0$ 和备择假设 $H_1$
②选择检验的方法，计算统计量
③根据显著性水平，确定用于做出决策的拒绝域
④查看样本结果是否位于拒绝域内
⑤做出决策

假设检验的几个重要概念

$H_0$ (原假设)：即要对其进行检验的断言，除非有足够的证据拒绝，否则将接受原假设
$H_1$ (备择假设)：在拒绝原假设之后将要接受的断言，通常与原假设对立
$\alpha$ (显著性水平)：指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值，必须在每一次统计检验之前确定，通常取 $\alpha$ =0.05或 $\alpha$ =0.01
单尾检验：拒绝域落在可能的数据集的一侧
双尾检验：拒绝域落在可能的数据集的两侧

使用单尾检验还是双尾检验取决于备择假设的形式：

拒绝域的位置	原假设	备择假设
双尾	$H_0:\theta=\theta_0$	$H_1:\theta\neq\theta_0$
左单尾	$H_0:\theta\geq\theta_0$	$H_1:\theta\ < \theta_0$
右单尾	$H_0:\theta\leq\theta_0$	$H_1:\theta\ > \theta_0$

假设检验的基本思想

小概率原理：小概率事件在一次试验中是几乎不可能发生的，假若在一次试验中事件事实上发生了，那只能认为事件不是来自我们假设的总体，也就是认为我们对总体所做的假设不正确。

假设检验中的两类错误

①第一类错误(弃真错误）：原假设事实上正确，可是检验统计量的观察值却落入拒绝域，因而否定了本来正确的假设， $p(弃真）=\alpha$
②第二类错误(取伪错误)：原假设事实上不正确，可是检验统计量的观察值却落入了接受域，因而没有否定本来不正确的原假设。

P值

当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。

P值	碰巧的概率	对原假设 $H_0$	统计学意义
$p > 0.05$	碰巧出现的可能性大于5%	不能否定原假设 $H_0$	两组差别无显著意义
$p < 0.05$	碰巧出现的可能性小于5%	可以否定原假设 $H_0$	两组差别有显著意义
$p < 0.01$	碰巧出现的可能性小于1%	可以否定原假设 $H_0$	两组差别有非常显著意义

2、卡方检验

卡方检验的根本思想在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验分为卡方拟合度检验和卡方独立性检验。

卡方分布：若n个相互独立的随机变量ξ₁，ξ₂，…,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布

卡方检验的思想：卡方检验是以 $\chi^2$ 分布为基础的一种常用假设检验方法。
原假设 $H_0$ 是：观察频数与期望频数没有差别。
$\chi^2=\sum\frac{(A-E)^2}{E}=\displaystyle\sum_{i=1}^k\frac{(A_i-E_i)^2}{E_i}$
$A$ ：某个类别的观察频数
$E$ ：基于 $H_0$ 原假设计算出的期望频数
$A - E$ ：残差

求和之前除以期望频数的原因：观察频数与期望频数的差距是相对较大还是较小，取决于期望频数的大小。例如期望频数为1000，观察频数为1040和期望频数为10，观察频数为50，差值均为40，但是显然后者的期望与实际的差距显然大于前者的期望和实际的差距。

$\chi^2$ 是观察频数与期望频数之间距离的一种度量指标，也是假设成立与否的度量指标。如果 $\chi^2$ 值小，就倾向于不拒绝 $H_0$ ；如果 $\chi^2$ 值大，就倾向于拒绝H0。至于 $\chi^2$ 在每个具体研究中究竟要大到什么程度才能拒绝 $H_0$ ，则要借助于卡方分布求出所对应的P值来确定。

卡方检验的用途
1、检验某个连续变量的分布是否与理论分布一致
2、检验某个分类变量各类的出现概率是否等于指定概率
3、检验某两个分类变量是否相互独立。如吸烟是否与呼吸道疾病有关
4、检验控制某种或某几种分类因素的作用以后，另两个分类变量是否相互独立

卡方拟合优度检验的自由度为 $d f = k - 1$ ，其中k代表分类变量数
卡方独立性检验的自由度为 $d f = (R - 1) (C - 1)$ ,R代表行数，C代表列数

卡方检验实例

卡方拟合优度检验
投掷骰子的观察分布是否等于期望分布。
$H_0$ :观察分布等于期望分布
假设投掷骰子共120次，各点数实际出现次数为A，期望出现次数为E,结果如下表：

点数	期望频数	实际频数
1	20	18
2	20	19
3	20	23
4	20	20
5	20	16
6	20	24

卡方值 $\chi^2=\displaystyle\sum\frac{(A-E)^2}{E}=2.3$
自由度为 $d f = k - 1 = 5$
选择显著性水平 $\alpha=0.05$
根据自由度和显著性水平，得到卡方临界值为 $11.0705$
由于 $2.3 < 11.0705$ ，故接受原假设，认为观察分布等于期望分布

卡方独立性检验
喝牛奶与感冒是否相关
$H_0$ :喝牛奶与感冒不相关
观测情况如下表：

	感冒人数	不感冒人数	合计	感冒率
喝牛奶	43	96	139	30.94%
不喝牛奶	28	84	112	25.00%
合计	71	180	251	28.29%

假设喝牛奶与感冒是独立不相关的，则期望情况如下表：

	感冒人数	不感冒人数	合计
喝牛奶	139*28.29%=39.3231	139*（1-28.29%）=99.6769	139
不喝牛奶	112*28.29%=31.6848	112*（1-28.29%）=80.3152	112
合计	71	180	251

卡方值 $\chi^2=\displaystyle\sum\frac{(A-E)^2}{E}=1.10$
自由度为 $d f = (R - 1) (C - 1) = 1$
选择显著性水平 $\alpha=0.05$
根据自由度和显著性水平，得到卡方临界值为 $3.841459$
由于 $1.10 < 3.841459$ ，故接受原假设，认为喝牛奶与感冒是独立不相关的

3、Z检验

Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。当已知标准差时，验证一组数的均值是否与某一期望值相等时，用Z检验。

检验一个样本的平均值与一个已知总体的平均值是否存在显著差异，Z值计算公式如下：
$z=\frac{\bar X-\mu_0}{S/\sqrt{n}}$
其中
$\bar X$ ：样本平均值
$\mu_0$ ：总体均值
$S$ ：总体标准差。当总体标准差未知且样本容量大时，取样本标准差
$n$ ：样本容量
检验来自两个不同总体的两组样本平均数的差异性，从而判断它们各自代表的总体的差异是否显著，Z值计算公式：
$z=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}$
其中
$X_1$ ：样本1的均值
$X_2$ ：样本2的均值
$S_1$ ：样本1的标准差
$S_2$ ：样本2的标准差
$n_1$ ：样本1的样本容量
$n_2$ ：样本2的样本容量

Z检验的步骤
①确立原假设 $H_0$ ：两个平均数之间没有差异
②根据z值计算公式计算出z值
③根据显著性关系与z值做出判断

z值	p值	差异程度
$\geq$ 2.58	$\leq$ 0.01	非常显著
$\geq$ 1.96	$\leq$ 0.05	显著
<1.96	>0.05	不显著

Z检验实例
根据过去大量资料，某厂生产的灯泡使用寿命符合正态分布N~ $1020,100^2)$ ,从最近生产的一批灯泡中随机抽取100只，测得样本平均值为1080，在0.05的显著性水平下判断这批产品的使用使用寿命是否显著提高。
$H_0$ ：样本均值与总体均值无显著差异
根据公式计算Z值为 $z=\frac{\bar X-\mu_0}{S/\sqrt{n}}=\frac{1080-1020}{100/\sqrt{100}}=6$
在0.05的显著性水平下，由于8>1.96,因此拒绝原假设，认为样本均值与总体均值存在显著差异。

4、T检验

T检验是用于小样本（样本容量小于30）的两个平均值差异程度的检验方法。T检验是通过比较不同数据的均值，研究两组数据之间是否存在显著差异。

T检验的适用条件为样本分布符合正态分布。
T检验的应用条件：
当样本例数较小时，要求样本取自正态总体
做两样本均数比较时，还要求两样本的总体方差相等。

T检验的用途：
（1）样本均数与群体均数的比较
（2）两样本均数的比较

T检验的三种形式

单个样本的t检验
用于检验样本的分布期望是否等于某个值，原假设： $\mu=\mu_0$
统计量计算：
$t=\frac{\bar X-\mu_0}{S/\sqrt{n}}$
自由度 $v = n - 1$
适用条件：
(1) 已知一个总体均数 $\mu_0$ ；
(2) 可得到一个样本均数 $\bar X$ 及该样本标准差 $S$ ，样本数 $n$ ；
(3) 样本来自正态或近似正态总体；

单样本T检验实例
检验难产儿样本出生体重与一般婴儿出生体重是否相同？已知一般婴儿出生体重 $\mu_0=3.30kg$ ，难产儿样本 $n=35，\bar X=3.42,S=0.40$

①建立假设检验：
$H_o$ ：难产儿与一般婴儿的体重均数相等， $\mu = \mu _0$
$H_1$ ：难产儿与一般婴儿的体重均数不相等， $\mu ≠ \mu _0$

②确定显著性水平： $\alpha=0.05$

③计算检验统计量： $t=\frac{\bar X-\mu_0}{S/\sqrt{n}}=\frac{3.42-3.30}{0.40/\sqrt{35}}=1.77，v=n-1=34$

④查相应的界表值，确定P值。得 $t = 1.77 < 2.032$ 故不拒绝原假设，不能认为难产儿平均体重与一般婴儿平均体重不相同
配对样本的t检验
配对样本t检验针对配对的两组样本。假设两组样本之间的差值服从正态分布。如果该正态分布的期望为零，则说明这两组样本不存在显著差异。原假设： $\mu_d=0$

配对方式
①自身配对：同一对象接受2种处理，如同一患者接受不同的治疗药物
②异体配对：将条件相近的实验对象配对，并分别给予不同的处理

统计量计算：
$t=\frac{\bar d}{S_d/\sqrt{n}}$
$\bar d$ ：两组样本差值的平均数
$S_d$ ：两组样本差值的标准差
$n$ ：配对样本数

配对样本T检验实例
某医院用A、B两种血红蛋白法测量16名健康男青年的血红蛋白，问两者有无差别

$H_0$ ： $\mu_d=0$ 两种方法测量结果相同
$H_0$ ： $\mu_d≠0$ 两种方法测量结果不相同
显著性水平： $\alpha = 0.05$
计算统计量 $t=\frac{\bar d}{S_d/\sqrt{n}}=\frac{8.125}{13.735/\sqrt{16}}=2.366$
查相应的界表值，确定P值，拒绝 $H_0$ ,可认为A、B两种测量结果不一致，
独立样本的t检验
该检验用于检验两组非相关样本均值之间的差异性，从而判断两样本所代表的总体均值是否有差异
统计量计算：
$t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}}$

自由度 $v=n_1+n_2-2$
适用条件：
(1)可计算两样本的均值及标准差
(2)样本来自正态或近似正态总体
(3)总体方差齐次 $\sigma_1 ^2= \sigma_2^2$

独立样本T检验实例
问独立样本甲和乙均值是否一致？

$H_0$ ： $\mu_1 = \mu_2$
$H_0$ ： $\mu_1 ≠\mu_2$
显著性水平： $\alpha=0.05$
计算统计量 $t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}}=-3.785$
$v = 10 + 10 - 2 = 18$
查表得拒绝原假设，可以认为 $\mu_1 ≠\mu_2$

5、F检验

F检验也称为方差齐次性检验
方差为样本标准差的平方，即： $S^2=∑_i^n(x_i-\bar x)^2/(n-1)$
两组数据就能得到两个 $S^2$ 值
$F=S_1^2/S_2^2$
然后计算的F值与查表得到的F表值比较，如果
F < F表表明两组数据没有显著差异；
F ≥ F表表明两组数据存在显著差异。

什么是回归模型，什么是自回归模型？杰瑞学AI Computer knowledge AI/AGI NLP/LLMs 回归数据挖掘人工智能
在统计学和机器学习中，回归模型和自回归模型都是用来预测或建模变量之间关系的工具，但它们在数据类型和变量依赖关系上有着关键的区别。回归模型(RegressionModel)回归模型是一种统计方法，用于建立一个或多个自变量（independentvariables）与一个因变量（dependentvariable）之间的关系。它的主要目标是预测因变量的值，或者理解自变量如何影响因变量。核心思想：假设因
使用argparse封装python程序为命令行工具纪伊路上盛名在生信推文-python python 开发语言自动化
小规模的python代码，jupytercell中直接运行，相当于该py文件直接python运行，但是像shell脚本一样，给予参数自由度设置，更方便分析，也就是我们需要传入参数进行重复性、同质性的操作。Q：如何使用argparse将Python程序封装为可调用的命令行工具？比如说我有一个函数，各个模块我已经写好了，这里引用一下我之前上统计学习课的时候举的一个HMM的例子，简单来说，就是一阶HMM
贝叶斯算法：从概率推断到智能决策的基石 weixin_47233946 算法算法
##引言在人工智能与机器学习的蓬勃发展中，贝叶斯算法以其独特的概率推理方式和动态更新的特性，在垃圾邮件过滤、疾病诊断、推荐系统等关键领域展现出强大的应用价值。本文将从概率论基础出发，深入解析贝叶斯算法的核心思想及其实现方式，揭示这一统计学方法如何演变为现代智能系统的决策利器。---##一、贝叶斯定理：概率之门的钥匙###1.1基本公式表述贝叶斯定理的数学表达式揭示事件间的关联关系：$$P(A|B)
CART算法全解析：分类回归双修的决策树之王大千AI助手人工智能 Python #OTHER 算法分类回归决策树数据挖掘 CART DecisionTree
CART（ClassificationandRegressionTrees）是决策树领域的里程碑算法，由统计学家Breiman等人在1984年提出。作为当今最主流的决策树实现，它革命性地统一了分类与回归任务，其二叉树结构和剪枝技术成为现代集成学习（如随机森林、XGBoost）的基石。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕
python scipy简介凤枭香 Python 图像处理 python scipy 开发语言图像处理
scipyscipy是一个python开源的数学计算库，可以应用于数学、科学以及工程领域，它是基于numpy的科学计算库。主要包含了统计学、最优化、线性代数、积分、傅里叶变换、信号处理和图像处理以及常微分方程的求解以及其他科学工程中所用到的计算。scipy模块介绍scipy主要通过下面这些包来实现数学算法和科学计算，后面对于scipy的讲解主要也是基于这些包来实现的cluster：包含聚类算法co
Task 01 第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。回忆知识点：统计学习方法三要素为：模型+策略+算法模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。策略：统计学习要考虑按照什么样的准则选
AI大模型从0到1记录学习大模型技术之机器学习 day27-day60 Gsen2819 算法大模型人工智能人工智能学习机器学习
机器学习概述机器学习（MachineLearning,ML）主要研究计算机系统对于特定任务的性能，逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。人工智能、机器学习与深度学习人工智能（AI）是计算机科学的一个广泛领域，
（详细介绍）什么是 Spherical Gaussian（球形高斯分布）音程数学数学
文章目录什么是SphericalGaussian？几何意义：为什么叫“球形”？特点总结：应用场景举例：✅示例代码（Python）相关概念对比：SphericalGaussian（球形高斯分布）是概率论与统计学中一个非常常见且重要的概念，尤其在机器学习、信号处理、模式识别等领域有广泛应用。什么是SphericalGaussian？SphericalGaussianDistribution（球形高斯分
AI模型的泛化性的第一性原理是什么？ mao_feng 人工智能
目录**一、泛化性的第一性原理：统计学习理论的核心****1.独立同分布假设（IID）是泛化的基础****2.泛化误差：理论本质的数学刻画****3.模型复杂度与样本量的权衡****二、实现泛化的核心机制：正则化与隐式约束****1.显式正则化：复杂度惩罚****2.隐式正则化：优化过程的泛化诱导****3.数据层面的泛化增强****三、深度学习的特殊性：过参数化与泛化的悖论****1.“双下降曲
假设检验：统计推断的决策艺术 Algo-hx 概率论与数理统计概率论
目录引言8假设检验8.1假设检验的基本原理8.1.1核心概念框架8.1.2假设形式8.2检验的两类错误8.2.1错误类型矩阵8.2.2错误概率关系8.3单正态总体参数检验8.3.1均值μ的检验8.3.2方差σ²的检验8.4双正态总体参数检验8.4.1均值差检验8.4.2方差比检验8.5P值：检验的客观度量8.5.1P值定义8.5.2决策规则8.5.3P值解读引言假设检验是统计学的’审判法庭’——通
贝叶斯原理：解锁不确定性的智慧钥匙（全网最详细）富士达幸运星贝叶斯原理人工智能机器学习
在浩瀚的统计学与概率论海洋中，贝叶斯原理如同一盏明灯，照亮了我们在不确定性中前行的道路。它不仅仅是一种计算方法，更是一种深刻的思维方式，让我们能够基于有限的信息和先验知识，对未知事件做出更加合理的预测和判断。本文将带您一窥贝叶斯原理的奥秘，探索它如何在各个领域发光发热。一、贝叶斯原理的起源与核心概念起源贝叶斯原理得名于18世纪的英国数学家托马斯·贝叶斯（ThomasBayes），尽管他本人并未直接
利用 Python 和 scikit - learn 进行分层抽样 Python编程之道 python 开发语言 ai
利用Python和scikit-learn进行分层抽样关键词：分层抽样、scikit-learn、Python、数据采样、机器学习、数据预处理、统计学摘要：本文深入探讨了分层抽样在数据科学和机器学习中的应用。我们将从统计学基础出发，详细讲解分层抽样的原理、优势以及实现方法。通过Python和scikit-learn库的实际代码示例，展示如何在不同场景下应用分层抽样技术。文章还涵盖了分层抽样的数学模
JAVA推荐系统-基于用户和物品协同过滤的电影推荐泰山AI 技术交流推荐算法 java 算法
系统原理该系统使用java编写的基于用户的协同过滤算法（UserCF）和基于物品（此应用中指电影）的协同过滤(ItemtemCF）利用统计学的相关系数经常皮尔森（pearson）相关系数计算相关系数来实现千人千面的推荐系统。协同过滤算法协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。协同过滤(CollaborativeFiltering,简写CF)是推荐系统最重要得思想
中级统计师-统计学基础知识-第八章统计指数孟意昶考证之旅 python 机器学习算法
第一节统计指数的概念和种类一、统计指数的概念广义指数：表明社会经济现象总体数量变动的相对数示例：单只股票价格指数Kp=p1p0=78.573.5≈1.068K_p=\frac{p_1}{p_0}=\frac{78.5}{73.5}\approx1.068Kp=p0p1=73.578.5≈1.068（p1p_1p1为报告期价格，p0p_0p0为基期价格）狭义指数：表明复杂总体数量综合变动的相对数复杂
没有统计学基础，如何才能学好SPSS和SAS？ cda2024 学习 python 数据分析
在当今数据驱动的时代，掌握数据分析工具如SPSS和SAS已经成为许多职场人士的必备技能。然而，很多初学者常常会问：“我没有统计学基础，如何才能学好SPSS和SAS？”这确实是一个值得探讨的问题。本文将从多个角度为你解答这个问题，并提供一些实用的学习建议。一、理解SPSS和SAS的定位首先，让我们来了解一下SPSS和SAS这两个工具的定位和功能。SPSS（StatisticalPackagefort
Python量化投资入门教程：从零构建你的第一个交易策略聪明的一休哥哥程序员理财 python 开发语言量化交易
1、什么是量化投资？量化投资（QuantitativeInvestment），即通过数量化方式及计算机程序化发出买卖指令，以获取超额收益或特定风险收益比为目的的交易方式。它借助现代统计学、数学方法，利用计算机技术从海量历史数据中寻找能带来超额收益的“大概率”策略和规律，并纪律严明地按照这些策略构建的数量化模型来执行投资理念。其核心优势在于：纪律性：避免投资者在市场波动中因情绪波动做出错误决策。效率
詹森不等式（Jensen’s Inequality）——EM算法的基础 phoenix@Capricornus 模式识别中的数学问题机器学习
詹森不等式（Jensen’sInequality）是数学中一个非常重要的不等式，广泛应用于概率论、统计学、凸优化、信息论等领域。它基于凸函数和凹函数的性质。一、基本定义设函数fff是定义在区间III上的凸函数（convexfunction），且随机变量XXX的取值落在III内，期望存在，则有：E[f(X)]⩾f(E[X]){E}[f(X)]\geqslantf({E}[X])E[f(X)]⩾f(E
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
机器学习与深度学习16-概率论和统计学01 my_q 机器学习与深度学习机器学习深度学习概率论
目录前文回顾1.什么是概率论和统计学2.概率的基本概念3.什么是概率密度函数和累积分布函数4.均值、中位数与众数前文回顾上一篇文章地址：链接1.什么是概率论和统计学概率论和统计学是数学中重要的分支，用于研究随机事件和数据的分布、关联性以及不确定性。概率论是研究随机事件发生的可能性和规律的数学学科。它提供了一套工具和方法来描述和分析随机变量、随机过程以及他们之间的关系。概率论包括概率分布、随机变量、
Python统计学实例之正态分布：计算男女身高相差＞5厘米的概率 xupeggy163 用python学习统计学 python
正态分布计算：示例1正态分布计算实例：计算男女身高相差>5厘米的概率解题思路用到的公式总结：正态分布计算实例：计算男女身高相差>5厘米的概率假设男生身高X~N(71,20.25)，女生身高Y~N(64,16)解题思路算出两种正态分布的均值和方差算出新的正态分布的均值和方差算出变量5的标准分根据标准分在正态分布表中查询概率值用到的公式z=x−μσz=\frac{x-\mu}{\sigma}z=σx−
全球大型语言模型（LLM）技术全景：从GPT到文心一言的智能本质探析阿部多瑞 ABU 语言模型 gpt 文心一言
标题：全球大型语言模型（LLM）技术全景：从GPT到文心一言的智能本质探析摘要本文系统解析全球主流LLM（包括OpenAIGPT系列、GooglePaLM、MetaLLaMA及中国文心一言、通义千问等）的技术架构与测试表现，结合认知科学与工程学视角，探讨其通过图灵测试的实质意义。通过对比国内外模型的实现路径，揭示统计学驱动型AI与强人工智能（AGI）的本质鸿沟。1.LLM的技术本质：全球模型的共性
02 Deep learning神经网络的编程基础逻辑回归--吴恩达狂小虎 Deep Learning 深度学习神经网络逻辑回归
逻辑回归逻辑回归是一种用于解决二分类任务（如预测是否是猫咪等）的统计学习方法。尽管名称中包含“回归”，但其本质是通过线性回归的变体输出概率值，并使用Sigmoid函数将线性结果映射到[0,1]区间。以猫咪预测为例假设单个样本/单张图片为（x\mathbf{x}x，y\mathbf{y}y），特征向量X=x\mathbf{x}x，则y^\hat{y}y^即为X的预测值，y^\hat{y}y^=P（y
有形皆误，实用者存---ChatGPT o3作答部分分式 chatgpt 人工智能
“Allmodelsarewrong,butsomeareuseful.”——GeorgeE.P.Box出处统计学家GeorgeE.P.Box在1976年《JournaloftheAmericanStatisticalAssociation》演讲稿及1979年论文〈RobustnessintheStrategyofScientificModelBuilding〉中反复强调这句话，用以提醒研究者“模
概率单纯形（Probability Simplex） F_D_Z 数理杂深度学习概率单纯形
目录定义性质在统计学中的应用在机器学习中的应用在信息论中的应用在优化问题中的应用在其他领域的应用定义定义：在数学中，概率单纯形（ProbabilitySimplex）是指在nnn维空间中，所有分量非负且分量之和为1的向量集合。用数学符号表示为：Δn−1={p∈Rn∣pi≥0foralli,and∑i=1npi=1}\Delta^{n-1}=\left\{\mathbf{p}\in\mathbb{R
矩阵的奇异值（Singular Values）幼儿园大哥~ 扩展知识矩阵算法线性代数
矩阵的奇异值（SingularValues）是奇异值分解（SVD）过程中得到的一组重要特征值。它们在许多应用中非常重要，如信号处理、数据压缩和统计学等。以下是对奇异值及其计算和性质的详细解释：奇异值分解（SVD）奇异值分解是矩阵分解的一种方法，它将任意一个实数或复数矩阵分解为三个特定矩阵的乘积。具体来说，对于一个m×nm\timesnm×n的矩阵M\mathbf{M}M，其奇异值分解表示为：M=U
Python学习心得：代码森林的冒险穿梭的编织者 python 开发语言
第一章：迷雾中的第一步林然从未想过自己会与代码结缘。那是一个平淡的周六清晨，阳光穿过窗帘，洒在她那台老旧的笔记本电脑上。屏幕上，Python的安装界面静静地等待着她的决定。她是一个文科生，大学主修社会学，对数字和逻辑的兴趣仅限于偶尔翻看的统计学课本。可最近，她在网上看到一篇关于数据分析的文章，文中提到Python如何将枯燥的数字变成引人入胜的故事。那一刻，她的心被点燃了。“Python简单，像写诗
连续变量的全概率和贝叶斯公式_朴素贝叶斯分类:原理小红帽的灰灰狼连续变量的全概率和贝叶斯公式
贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人，他的经历类似梵高。生前没有得到重视，死后，他写的一篇关于归纳推理的论文被朋友翻了出来，并发表了。这一发表不要紧，结果这篇论文的思想直接影响了接下来两个多世纪的统计学，是科学史上著名的论文之一。贝叶斯原理贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章，**尝试解答在没有太多可靠证据的情况下，怎样做出更符合数学逻辑的推测。**什么是“
小样本百分比的统计检验一只土卜皿 spss spss 学习
当样本量小于40且需要比较占比（比例）的统计学差异时，需根据具体场景选择适当的方法。以下是针对小样本量的推荐方法和操作步骤：1.核心方法选择(1)两组占比比较（如A组20%vsB组40%）Fisher精确检验（Fisher’sExactTest）适用条件：样本量<40，或任一格期望频数<5。适用于2×2列联表（如两组+二分类结局）。SPSS操作：Analyze→DescriptiveStatist
参数/非参数检验和连续/离散/分类等变量类型的关系一只土卜皿统计学基础学习
嗯，用户问的是参数检验、非参数检验与变量类型的关系。首先，我需要回忆统计学中的基本概念。参数检验通常假设数据服从特定分布，比如正态分布，而非参数检验则不依赖这种假设。变量类型包括连续、离散和分类，分类变量又可以分有序和无序。接下来，用户可能想知道在不同变量类型下应该选择哪种检验方法。比如，对于连续变量，参数检验如t检验或ANOVA可能适用，但若数据不满足正态性，可能需要非参数检验如Mann-Whi
DAY35作业 weixin_71046789 Python打卡训练营内容算法深度学习人工智能
知识点回顾：三种不同的模型可视化方法：推荐torchinfo打印summary+权重分布可视化进度条功能：手动和自动写法，让打印结果更加美观推理的写法：评估模式作业：调整模型定义时的超参数，对比下效果。1.鸢尾花数据集（Irisdataset）是机器学习和统计学中常用的经典数据集：基本信息样本数量：共150个样本。特征数量：每个样本有4个特征，分别为萼片长度、萼片宽度、花瓣长度、花瓣宽度，单位均为
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，