假如我年华正好

美国顶级学术期刊宣布禁用p值——为什么p值很危险

本文的原始素材来源于：https://www.sohu.com/a/218689757_119719 美国顶级学术期刊宣布禁用p值，原来p值很危险

若想查看本文的ppt版本，请转至：https://mp.weixin.qq.com/s/pha2_VQVJ2vqshp6so7MgA

以下正文：

一、背景介绍

1月22日，美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。

根据该刊的声明，其主要原因是：p值本身无法提供支持相关模式或假说之证据

美国统计协会（ASA）在一篇关于p值的声明中也提到了6个准则：

P-values can indicate how incompatible the data are with a specified statistical model.
准则1：P值可以表达的是数据与一个特定统计模型不匹配的程度。

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
准则2：P值并不能衡量研究假设为真的概率，也不能衡量数据仅由随机因素产生的概率。

Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
准则3：科学结论、商业或政策决策不应该只建立在p值是否通过特定临界值的基础上。

Proper inference requires full reporting and transparency
准则4：合理的推断过程需要数据报告的完整性和透明性。

A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
准则5：P值或统计显著性并不能表明结果的重要性或影响程度大小。

By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
准则6：就p值本身而言，它不能提供良好的证据度量来支持模型或假设

先来看一下p值的使用现状：

通常研究者为了挤出显著的结果，只有在研究结果显著时才报告；研究结果不显著时，通通没有报告。这是一种只看到有利于结论的证据，忽略了不利证据的做法。这就是我们所说的摘樱桃现象（cherry-picking），因为只采摘成熟的、质量好的樱桃，而糟糕的樱桃你没有看见，并不代表它不存在，只是没有被公布出来而已。

举个例子来说明p值到底存在什么问题：

假设存在20个研究，每个研究的虚无假设都是正确的，那么单独的研究结果应该是不显著的；

当我们做了20个统计检验时，至少有一个结果显著的概率其实很高：

也就是说，即使我们把犯Ⅰ类错误的概率α控制在了0.05，至少有一次显著的概率依然可以高达64%！当你做了很多很多的实验，总会让你碰上一个显著的，然后你就兴高采烈地把这个“恰好”显著的结果报告出来了，但这只是你碰运气碰来的，实际是不显著的啊！

所以ASA在声明中给出的建议是：

实验者必须要 full reporting and transparency，不能有所遮掩，不能只报喜，不报忧；无论显著与否，都要把所有的实验结果报告出来！

二、p值是什么

p值的定义

p值是由 Ronald Fisher 在 1920 年代发展出来的，已将近一百年。《剑桥统计词典》中对P值的定义是：

P-value: The probability of the observed data (or data showing a more extreme departure from the null hypothesis) when the null hypothesis is true.（p 值：p值是零假设为真时，观察到目前的数据或者更偏离零假设数据的概率。）

p值检验

p值检验：检验在一个假定的model下，实验出来的data跟model是否吻合

这个假定的model，就是虚无假设（null hypothesis），一般是假设实验并无系统性效应的，即效应是零，或是随机状态，所以也叫零假设。例如：假设一个效应不存在，两组之间没有差异，因素与结局值之间没有相关性

在虚无假设之下，得到一个统计值，然后计算获得这么大（或这么小）的统计值的机率有多少，这个机率就是 p 值。

得到p值之后要做统计检定，我们约定俗成地设定一个显著性水平α，通常α=0.1，0.05，0.01。若p＜α，则拒绝虚无假设，并宣称这个检定在统计上是显著的；否则检定不显著。

为什么p值很小，就拒绝虚无假设？

这里依据的是命题逻辑中，以否定后件来否定前件的方法（拉丁文称为modus tollens），即：

若P，则Q → 非Q，则非P

也就是说，如果P成立，可以推出Q成立；现在如果Q不成立，则反过来推出P也不成立。

而p值检定是一种有或然性的modus tollens，是probabilistic modus tollens：

若H0为真，则p值显著的概率很小，只有0.05 → p显著了，则否定H0

所谓或然性，就是不是绝对的，而是存在一定概率的。我们在p值检定中容许了这样一个概率的存在，即使这个概率很小很小

但是对于modus tollens来说，不应该有任何误差的余地，即如果原假设H0成立，则p值不可能显著，显著的概率应该为0；所以如果p值显著了，则推出原假设不成立。

也就是说，我们用命题逻辑来作统计推论，而推论方法跟命题逻辑却不完全一样？

到这里我们就可以提出疑问了，我们到底能不能够因为 p 值很小，小到可能性很低，就用否定后件的方法来否定前件？

p值的问题在于：如果容许或然性，这样的推论方法还可靠吗？

这里举两个例子用来感受一下为什么用p值来做统计推论有可能是错误的：

例1

若大乐透的开奖机制是完全随机的，则每注中头奖的机率很小，只有 1 / 13,980,000；

现在你中奖了，几乎不可能发生的事件发生了，所以大乐透开奖的机制不是随机的。

例2

基督教如何论证上帝创造了世界？

若上帝是不存在的，事情的发生都是by chance的，要随机生成像人体这么复杂的系统，几率很低很低，几乎不可能；

现在人是存在的，几乎不可能发生的复杂系统却发生了，所以上帝是存在的，人是by design的。

是不是觉得怪怪的呢？根据这种逻辑得出来的推论，我们似乎要打上一个问号了。

到这里，我们突然对老师每组随机抽人讲作业的机制提出疑问：若我们的小组作业不是大家一起做的，那么随机抽一个人，这个人会讲的概率应该很小；结果现在真的抽到一个会讲的人，所以得出我们的小组作业是大家一起做的，这个结论真的靠谱吗？（手动奸笑）

三、p值不是什么

假设检验中的两类错误

用下图的表来呈现有关虚无假设是对或者不对，是被拒绝或者被接受的四种可能性，其中两种是作出错误统计推论的情况。

第一个情况，虚无假设是对的，但统计检定是显著的，因此虚无假设被推翻了。这种情况叫做 Type I error，又叫拒真错误，用α表示，表示在H0为真的情况下，H0被拒绝的概率，通常我们保留了 0.05 的机率容许它存在。

α = Pr(Type Ⅰ Error) = Pr(H0 Rejected | H0 True)

第二个情况，如果虚无假设是错误的，但统计检定不显著，所以它没有被推翻，这个情况叫做 Type II error，又叫受伪错误，用β表示，表示H0为假的情况下，H0被接受的概率。

β = Pr(Type Ⅱ Error) = Pr(H0 Not Rejected | H0 False)

为了让大家更好地理解这个表格，我用另一种形式呈现出来（在机器学习里称为混淆矩阵），其中N为阴性，表示H0为真，P为阳性，表示H0为假（通常把我们需要关注的状态设为阳性，例如医院的检查报告，检测出存在某种疾病则显示阳性）：

同样的表格，用abcd表示每种情况出现的案例数（而不是概率），此时：

α = a / (a + c)

β = d / (b + d)

此时我们给α和β另外一个名字，请大家务必要记住：

伪阳性率（α）：实际为阴性，却被预测为阳性的概率

伪阴性率（β）：实际为阳性，却被预测为阴性的概率

伪阳性的几率 vs 伪阳性的反几率

在p值检定里，p值告诉我们的是，如果虚无假设为真（N），我们"观察到数据"的概率有多少，也就是data的概率，即：

伪阳性的几率 = Pr（Test= + | H0）= a / (a + c) = α

但是！p值没有告诉我们，"虚无假设为真"的几率有多少，或"研究假设是对的"的几率有多少。也就是说，研究者最想知道的问题其实是，我观察到的数据出现时，H0正确的概率是多少（N），也就是model的概率，即：

伪阳性的反几率 = Pr（H0 | Test= +）= a / (a + b)

换言之，如果虚无假设为真，那么p值检定是显著的机率是 α = 0.05。但这其实不是我们作研究最想回答的问题；这个机率只告诉我们，如果你的虚无假设为真，有百分之五的机率，data 会跟它不合，但它没有告诉我们虚无假设这个 model 本身为真的机率有多少，而这才是我们应该问的问题。

原则上来说，伪阳性的几率和伪阳性的反几率不会相等，只有在a=0的时候，两者都是0才会相等。而前面我们说了，因为或然性的存在，a绝对不可能等于0，不然就不是统计了。

而且需要注意的是，伪阳性的反几率通常会很高，即使我们把α控制得很小很小。

贝叶斯定理计算反几率——铜板实验

举个例子来说明要如何计算反几率：

假设口袋里面有三个铜板，其中两个是正常铜板，即正面/反面的概率均为1/2；剩下一个是有偏差的铜板，正面概率1/3，反面概率2/3。

如果现在随机从口袋里掏出一个铜板，这个铜板是偏差铜板的概率是多少？

很简单，大家不要想太多，就是1/3 嘛！

P(偏差铜板) = 1/3

现在掏出这个铜板之后丢了一下，得到正面，这时候再问这个铜板是偏差铜板的概率是多少？

嗯，这个时候就要用到我们传说中的——贝叶斯公式了：

其中P(A)为先验概率（prior probability），P(A|B)为后验概率（posterior probability），表示在B发生的情况下A发生的概率。

继续刚刚的铜板问题，现在要计算的是抛出正面（B）的情况下，这个铜板是偏差铜板（A）的概率，代入贝叶斯公式：

P( 偏差铜板 | 正面)

= P(偏差铜板) × P (正面 | 偏差铜板) / P (正面)

= (1/3 ) × (1/3 ) / [(2/3) × (1/2) + (1/3) × (1/3)]

= 1 / 4

因为偏差铜板出现正面的机率，比正常铜板要小，所以出现正面的话，它相对来讲就比较不太可能是偏差的铜板，所以机率会比原来的 1/3 小些，只有 1/4。

这时候大家要建立一个概念，在还没观察到数据之前，对于模型的机率的一些估计，叫做先验概率，例如这里的 P(偏差铜板) =1/3；当观察到数据之后所更新的模型几率，例如这里的 P( 偏差铜板 | 正面) =1/4，是后验概率，也就是我们前面说的——反机率（inverse probability） 。

贝叶斯定理计算反机率——药检实验

再来看另外一个跟统计检定问题非常接近的例子：

假设有数据表明大约有6%的美国 MLB 的球员使用 PED（一种增加体能表现的药物），这个 6 % 即为前面说的先验机率：随机选出一个球员，则他有使用 PED 的机率是 0.06，没有使用 PED 的机率是 0.94。

而药检的准确度为95%。所谓准确度的定义是：如果一个球员使用了药物，他被检定为阳性的机率是 0.95；如果一个球员没有使用药物，他被检定为阴性的机率也是 0.95。也就是这里假设两种误差类型的机率 α 跟 β 都是 0.05。

问：当某个球员被检测出阳性时，他并不是 PED 使用者的反几率是多少？

根据题意画出表格，并且用贝叶斯公式进行计算：

如果大家对贝叶斯公式还是不太熟，可以用我前面说的混淆矩阵进行计算：

假设现在有10000人，即a+b+c+d=10000，

其中有6%的人使用了药物，剩下94%没有使用，即a+c=9400，b+d=600，

其中两类错误的概率均为0.05，即 a=0.05×9400=470， d=600×0.05=30，

剩下 c=9400×0.95=8930， b=600×0.95=570。

如图：

接下来我们要计算的是，在检测为阳性（P）的情况下，实际是未使用（N）的概率，即：

从结果来看，我们可以惊讶地发现，伪阳性的反几率可以高达45 %！也就是说，尽管药检的准确率已经很高了，高达了95%，但是当你被测出阳性出，仍然有45%的希望可以翻盘！

也就是说，大家做健康检查的时候，如果医生说，你的检查结果呈阳性，大家先不要慌张，而是勇敢地甩出反问三连：得这种病的先验概率是多少？检验的准确率是多少，如果一个真正有这种病的人来检定，呈现伪阳性的概率有多少？如果一个没有病的人来检定，呈现伪阴性的概率是多少？

然后你就可以自己计算出伪阳性的反几率，医学上很多疾病，在所有人口里面，得病的比例通常很小的，也就是说，得病的先验机率通常都很小，所以这个反几率通常会很大。

假设检验中的贝叶斯定理

现在用这个表格表示我们的p值统计检定，如下图，与前面的很像，只是将真实值为阴性阳性改为虚无假设是真的、或是假的；预测值改为统计检定是显著、或是不显著的。然后再加上一行先验机率，就是"虚无假设是对的"的先验机率有多少、"虚无假设是错的"的先验机率有多少。

其中，犯第一类错误的概率α在统计学中也称为显著性水平或统计水准，是我们人为设定；1-犯第二类错误的概率β=power，称为检验强度。

用贝叶斯公式计算伪阳性的反几率：

可以得到，伪阳性的反几率是关于统计水准 α、检定强度（power = 1 - β）、和研究假设之先验机率（Pr(HA)）的函数。

伪阳性反几率的影响因素

根据下面两个图，我们可以得出一些结论：

检验水准α一定时：

检验强度越大（β越小），伪阳性反机率越小

研究假设的先验机率越大，伪阳性反机率越小

这里有一个表格，列出了研究假设的先验机率，从最小排列到最大，可以看到在不同检定强度之下，伪阳性的反机率是多少。

从表中我们可以看到，研究假设的先验机率很小时，即使p值很显著，虚无假设仍为真的概率还是很高（可以将近1）！

当研究假设的先验机率为0.5时（即事先不知道哪一个是正确的，没有任何偏好的，例如丢铜板，两面的概率完全是随机的），伪阳性的反机率才能降到0.05（同α一样）。

当研究假设的先验机率很低时，可能严重低估了伪阳性的反机率，即使在P值很显著的情况下，H0仍为真的概率可能远大于α。

表格的第一列表示power=0.95，第二列power=0.75，第三列power=0.50，可以看到结果是差不多的，可见power对伪阳性的反几率作用不是那么强。

结论：研究假设的先验机率对于伪阳性反机率的作用较强，而检验强度（1-β）影响不大。

四、总结

5句大白话总结——p值为什么很危险！

现在我抛开所有的专业术语，用5句大白话进行总结：

①P值告诉我们的是：H0为真的情况下，观察值出现的可能性大小，即 a/(a+c)

②作为研究者实际想知道的是：出现某个观察值之后，H0为真的，即 a/(a+b)

③两者当且仅当a=0时才会相等，但是a绝对不可能为0，否则就不是统计了

④如果要求②，除了可以人为控制的a，还必须要知道b，而b往往是不知道的！

⑤P值检验中，我们用c代替了b，所以我们做出的统计推论很！可！能！是！错！误！的！

---本文完---

r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记？蒲牢森 r语言手动算两个C指数p值
作者：一只想飞的喵审稿：童蒙编辑：angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值，且添加显著性标记。通常情况根据显著性p值的数值大小，分为四类：(1)0.01≤p<0.05，*(2)0.001≤p<0.01，**(3)0.0001≤p<0.001，***(4)p<0.0001,****接下来会讲述三种添加显著性标记的方法。方法1-手动添加1：创建数据
R语言广义加型模型（GAM）的运用例子及实现教程 Mrrunsen R语言大学作业 r语言开发语言
文章目录步骤1：加载所需包和数据步骤2：数据预处理步骤3：拟合广义加型模型步骤4：查看模型摘要和诊断模型摘要系数估计平滑项模型质量步骤5：预测和可视化结论广义加型模型（GeneralizedAdditiveModel，简称GAM）是一种灵活的非线性建模方法，在统计学和机器学习领域被广泛应用。GAM可以用于拟合非线性关系，适用于多个预测变量之间的复杂关系，并且可以处理连续和分类变量。本教程将向您展示
python 统计库_《统计学习方法》 Python 库 weixin_39756540 python 统计库
新建GitHub仓库仓库名为slmethod,统计学习方法(StatisticalLearningMethod)的简写Public公开仓库勾选InitializethisrepositorywithaREADME.gitignore选择Python添加MITLicensenew下载代码到本地，使用ssh协议。[email protected]:iOSDevLog/slmethod.git
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
规控算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
规控算法工程师技术图谱与学习路径规控算法工程师（规划与控制算法工程师）是自动驾驶领域的核心岗位之一，涉及路径规划、行为决策、运动控制等多个技术模块。以下为技术图谱与学习路径的整合，结合行业需求和技术发展趋势。一、技术图谱核心模块数学基础线性代数：矩阵运算、向量空间、特征值分解（用于控制系统建模与优化）。微积分：梯度下降、泰勒展开、动态系统建模（支持控制算法推导）。概率论与统计学：贝叶斯理论、马尔可
推荐算法工程师的技术图谱和学习路径执于代码开发者职业加速服务推荐算法学习算法
推荐算法工程师的技术图谱和学习路径可以从多个维度进行概述，可以总结如下：一、技术图谱推荐算法工程师需要掌握的技术栈主要分为以下几个方面：数学基础：微积分、线性代数、概率论与统计学是推荐算法的基础，用于理解模型的数学原理和优化算法。高等数学、最优化理论、几何和图论等知识对于复杂模型的设计和优化至关重要。编程与数据结构：熟练掌握Python、Java等编程语言，具备良好的编程习惯和代码优化能力。掌握数
聚类分析tensorflow实例_新手必看的机器学习算法集锦（聚类篇）道酝欣赏
继上一篇《机器学习算法之分类》中大致梳理了一遍在机器学习中常用的分类算法，类似的，这一姊妹篇中将会梳理一遍机器学习中的聚类算法，最后也会拓展一些其他无监督学习的方法供了解学习。1.机器学习机器学习是近20多年兴起的一门多领域交叉学科，它涉及到概率论、统计学、计算机科学以及软件工程等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类能从数据中自动分析获得规律
数据挖掘与数据分析的区别是什么中琛源科技
数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。从分析的目的来看，数据分析一般是对历史数据进行统计学上的一些分析，数据挖掘更侧重于机器对未来的预测，一般应用于分类、聚类、推荐、关联规则等。从分析的过程来看，数据分析更侧重于统计学上面的一些方法，经过人的推理演译得到结论；数据挖掘更侧
线性秩检验木子算法非参数统计数学建模概率论
线性秩检验一、引言在统计学的广袤领域中，参数检验通常基于数据服从特定分布（如正态分布）的假设。然而，在实际场景里，数据往往并不满足这些严格假设，此时非参数检验方法便展现出独特优势。线性秩检验作为一种强大的非参数检验手段，能够在不依赖数据分布的前提下，对数据进行深入分析，探寻其中隐藏的规律与差异。本文将全方位深入剖析线性秩检验，涵盖其原理、公式推导以及实际案例应用，助力读者全面掌握这一重要的统计方法
【量化金融自学笔记】--开篇.基本术语及学习路径建议花花 Show Python 量化金融自学笔记金融笔记学习
在当今这个信息爆炸的时代，金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被更加科学、精准的量化技术所取代。量化金融，这个曾经高不可攀的领域，如今正逐渐走进大众的视野。它将数学、统计学、计算机科学与金融学深度融合，为我们提供了一种全新的视角去理解和探索金融市场的奥秘。作为一名对量化金融充满热情的自学者，我深知在这个领域中，每一步都充满了挑战与机遇。从最初对复杂数学公式的困惑，到逐渐掌握编
【机器学习】平均绝对误差（MAE：Mean Absolute Error） IT古董机器学习人工智能机器学习人工智能 python
平均绝对误差(MeanAbsoluteError,MAE)是一种衡量预测值与实际值之间平均差异的统计指标。它在机器学习、统计学等领域中广泛应用，用于评估模型的预测精度。与均方误差(MSE)或均方误差根(RMSE)不同，MAE使用误差的绝对值，因此它在处理异常值时更加稳定。1.MAE的定义和公式给定预测值和真实值，MAE的公式为：其中：n是样本总数。是模型的预测值。是对应的真实值。MAE表示了预测值
AI探索笔记：线性回归安意诚Matrix 机器学习笔记人工智能笔记线性回归
前言写这篇博客，主要是自己来练练手。网络上教程已经是数不胜数，也都讲得非常清楚了。但自己不动手，知识和能力还是别人的。下面分别用传统方法（sklearn）和神经网络（pytorch）来解决线性回归问题。内容什么是线性回归线性回归（LinearRegression）是统计学和机器学习中最基础且广泛使用的预测模型，用于建立**自变量（输入特征）与因变量（输出目标）**之间的线性关系模型。其核心思想是通
PCA主成分分析降维算法及其可视化（附完整版代码） Jason_Orton 算法机器学习数据挖掘人工智能 matlab
一.PCA的介绍PCA（PrincipalComponentAnalysis）是一种数据降维技术，旨在将多维指标转换为少数几个综合指标。在统计学中，PCA是简化数据集的一种方法，通过线性变换将数据映射到新的坐标系中。在新的坐标系中，第一主成分捕获数据投影的最大方差，第二主成分捕获第二大方差，依此类推。主成分分析常用于减少数据集的维度，同时保留对方差贡献最大的特征。这是通过保留低阶主成分、忽略高阶主
JS宏进阶：浅谈曲线回归 jackispy JS宏进阶回归数据挖掘人工智能 javascript
曲线回归是一种统计学方法，用于研究两个或多个变量之间的非线性关系，并找到最能拟合数据点的曲线函数形式。与线性回归不同，曲线回归适用于描述那些不是直线性的变量关系。通过曲线回归，可以建立变量之间的非线性数学模型，用于预测和解释各种实际现象。一、基本概念定义：曲线回归是指对于非线性关系的变量进行回归分析的方法。曲线回归方程一般是以自变量的多项式或其他非线性函数形式表达因变量。目的：曲线回归的主要目的是
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
深入理解SAP HANA Cloud Vector Engine与自查询 VYSAHF java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
数据挖掘中特征发现与特征提取的数学原理调皮的芋头数据挖掘人工智能 AIGC 计算机视觉
好的，我将深入研究数据挖掘中特征发现与特征提取的数学原理，涵盖统计学基础、特征工程的数学方法、以及在机器学习和深度学习中的应用。我会整理相关数学公式和理论，包括主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、信息增益、互信息、方差分析等统计方法，并结合金融量化交易的实际应用，确保内容既有理论深度，又能落地实践。完成后，我会通知您！1.统计学基础：描述性统计、方差分析、相关性与
大模型学习路线与资源推荐数字化转型2025 AI投资人工智能
以下是基于多篇参考资料整理的大模型学习路线，涵盖从基础到进阶的完整学习路径，帮助您系统掌握大模型核心技术并应用于实际场景：一、基础阶段：构建核心知识体系编程与数学基础编程语言：优先学习Python，掌握其语法、数据结构及常用库（如NumPy、Pandas、PyTorch）37。数学基础：线性代数、概率论与统计学、微积分是理解模型原理的基石，需重点掌握矩阵运算、概率分布等概念39。深度学习入门神经网
统计学基础知识点刷题（task2） sm376624607 统计学
参考视频：可汗学院《统计学》参考书籍：《深入浅出统计学》文章目录概念1:中心极限定理概念2:置信区间概念3:伯努利分布概念4:误差范围概念5:小样本容量置信区间概念1:中心极限定理核心内容：随着抽样次数趋于∞\infty∞,样本均值的抽样分布趋近于正态分布，且该正态分布的均值为总体均值。X‾服从N(μ,σ/n)\overline{X}服从N(\mu,\sigma/\sqrt{n})X服从N(μ,σ
机器学习数学基础：36.φ相关系数分析 @心都机器学习人工智能
用φ相关系数分析性别与心理测验态度关系的教程一、学习目标学会使用φ相关系数分析两个二分变量（如性别男/女、对心理测验态度肯定/否定）之间的关系，并通过卡方检验判断结果是否具有统计学意义。二、数据准备假设我们想研究青年大学生的性别和对心理测验的态度之间的关系，收集到如下2×22×22×2列联表数据（调查了170170170人）：肯定否定合计男生222222888888110110110女生18181
读书究竟有什么用？不同的书分别有什么作用？不同的书对人生分别有什么样的影响和意义？... Lucky小黄人
不同类型的文学作品对人生的作用和意义是不一样的，按照我的阅读经验和理解，对常见文学作品类别和他们对我们的意义做个简单总结：1、统计学、经济学作品这类作品往往可以帮助我们提升对经济现象、宏观政策的敏感度，洞察财富增长的逻辑，说白了就是有助于找到赚钱的路子。比如《权利结构、政治激励和经济增长》、《八次危机》。2、哲学与社会学作品这类作品有助于拓展思想深度，有助于培养大局观，也让我们意识到个体的渺小与社
【A/B测试】深度解析：从理论到实践Python实现详解（含源码）絆人心 python 前端开发语言数据分析信息可视化数据挖掘机器学习
目录前言一、什么是A/B测试？A/B测试的常见应用场景二、A/B测试的基本流程三、假设检验：零假设与备择假设Python代码示例：A/B测试的实践四、A/B测试中的统计学方法五、总结附录：完整代码前言A/B测试（也称分流测试）在数据分析和产品优化中扮演重要角色。无论是在网站优化、营销活动还是产品改进中，A/B测试都帮助通过数据驱动决策、测试和验证论文提出了实际操作的基本概念，详细讲解了如何实施A/
什么是机器学习? CM莫问机器学习模型机器学习人工智能算法
一、概念（维基百科）机器学习是人工智能的一个分支。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。二、主要特点机器学习的主要特点包括：1、数据驱动：机器学习模型的性能主要依赖于输入的数据。数据的质量和数量直接影响模型的准确性和泛化能力，所谓“Garbagein,garbag
基于动态规划与0-1整数规划模型的多阶段生产决策问题研究 NovakG_ 数据挖掘动态规划数学建模算法
摘要随着市场竞争的日益激烈，企业将以产品质量作为其发展战略重心，以适应激烈的市场竞争与不断变化的用户需求。本文针对某畅销电子产品生产过程中的决策问题，应用统计学中单边检验、二项分布与正态分布的方法，以最小化产品生产成本为目标，建立了动态规划与0-1整数规划模型。通过数学建模与模拟，为企业的生产提供了科学有效的生产决策依据，降低生产成本并优化资源配置。针对问题一，主要解决两个问题：一是需要设计一个最
机器学习(一) 本文(3万字) | 机器学习概述 | 小酒馆燃着灯机器学习人工智能深度学习目标检测 vscode pytorch python
推荐阅读，点击查看文章目录1.统计学习(机器学习）1.1特点1.2对象1.3目的1.4方法1.5步骤2.基本分类2.1监督学习2.1.1输入空间、特征空间和输出空间2.1.2概率分布2.1.3假设空间2.1.4问题的形式化2.2无监督学习2.3强化学习2.4半监督学习与主动学习3.基于模型分类4.基于技巧分类4.1贝叶斯学习4.2核方法5.统计学习三要素5.1模型5.2策略5.2.1损失函数与风险
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
正则化（Regularization）和正则表达式（Regular Expression）区别 Dontla 正则表达式
文章目录1.**正则化（Regularization）**2.**正则表达式（RegularExpression）**关键区别为什么名字相近？正则化（Regularization）和正则表达式（RegularExpression）不是同一个概念，它们是两个完全不同的术语，应用于不同的领域。1.正则化（Regularization）领域：机器学习/统计学。定义：正则化是一种用于防止模型过拟合（Ove
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23