xia ge tou lia

统计推断——假设检验——卡方检验

一、独立样本四格表资料的 $\large \chi ^{2}$ 检验

问题的提出：

$\large t$ 检验：比较两个样本均数的差别是否有统计学意义。

$\large F$ 检验：多个样本均数之间的差别是否有统计学意义。

在医学研究中，还常需对比两组或多组定性变量（如检验结果：愈合和未愈合）资料之间的差别，例如比较两种或多种治疗方法的治愈率是否不同。该怎么办？

1.1 $\large \chi ^{2}$ 检验的基本思想

假设两种药物治疗的愈合率是相等的（ $H_{0}$ 成立的条件下），那么这两种药物的愈合率就可以进行合并估计。即愈合的人数相加等于115人，合计的人数相加等于169人，愈合率115/169=68.05%。也就是说如果 $H_{0}$ 两组总体愈合率相等这个前提是成立的，那么68.05%就是对总体愈合率的最好估计，因为样本量更大了。

以此算 $H_{0}$ 成立的条件下，两种药物理论上的愈合人数（期望愈合数）和未愈合人数，如洛赛克的愈合人数等于85*68.05%=57.84，未愈合人数等于85*（1-85%）等于27.16。

$\large \frac{(A-T)^{2}}{T}$ 即求实际数和理论数的相对误差（不吻合值），在进行累加，如果累加误差接近0，就说样本支持 $H_{0}$ 。分子平方的意义在于避免正的不吻合值和负的不吻合值发生抵消。

$\large \begin{align}\chi ^{2}&=\sum\frac{(A-T)^{2}}{T} \\&=\frac{(64-57.84)^{2}}{57.84}+\frac{(21-27.16)^{2}}{27.16}+\frac{(51-57.16)^{2}}{57.16}+\frac{(33-26.84)^{2}}{26.84}\\&=4.13 \end{align}$

证明： $\large \chi ^{2}=\sum\frac{(A-T)^{2}}{T}=\frac{(ad-bc)^{2}n}{(a+b)(c+d)(a+c)(b+d)}$

1.2 2×2列联表 $\large \chi ^{2}$ 检验的基本步骤

1．建立检验假设，确定检验水准

$\large H_{0 }$ ： $\large \pi _{1}=\pi _{2}$ ，即两种药物治疗消化道溃疡的愈合率相同

$\large H_{1}$ ： $\large \pi _{1}\neq \pi _{2}$ ，即两种药物治疗消化道溃疡的愈合率不同

$\large \alpha$ = 0.05

2．计算统计量

$\large \begin{align}\chi ^{2}&=\sum\frac{(A-T)^{2}}{T} \\&=\frac{(64-57.84)^{2}}{57.84}+\frac{(21-27.16)^{2}}{27.16}+\frac{(51-57.16)^{2}}{57.16}+\frac{(33-26.84)^{2}}{26.84}\\&=4.13 \end{align}$

3. 确定P值，做出推断

自由度为 $\large \nu$ =(行数―1)×(列数―1)

按自由度等于1 , 检验水准等于0.05, 查附表得 $\large \chi ^{2}_{0.05, 1}$ = 3.84。本例 $\large \chi ^{2}$ = 4.13，可知 $\large P$ <0.05。在 $\large \alpha$ =0.05水平上拒绝 $\large H_{0}$ ，两样本频率的差异具有统计学意义。

因为洛赛克的样本愈合率为75.29%，雷尼替丁的愈合率为60.71%，可以认为洛赛克的愈合率比雷尼替丁的愈合率高。

1.3 2×2列联表 $\large \chi ^{2}$ 检验的专用公式

$\large \chi ^{2}=\frac{(ad-bc)^{2}n}{(a+b)(c+d)(a+c)(b+d)}$ ，其中 $\large n$ 为总体的样本量。

$\large \begin{align}\chi ^{2}&=\sum\frac{(A-T)^{2}}{T} \\&=\frac{(64-57.84)^{2}}{57.84}+\frac{(21-27.16)^{2}}{27.16}+\frac{(51-57.16)^{2}}{57.16}+\frac{(33-26.84)^{2}}{26.84}\\&=4.13 \end{align}$

2×2列联表 $\large \chi ^{2}$ 检验的校正公式

校正的原因：首先，卡方（界值）分布其为一个连续型的分布，但是实际数 $\large A$ 是不连续的，如上面例题中洛赛克组的愈合人数为64人，那么对于这样的实验结果，我们的另外一次实验它的愈合人数如果略多的话，就会是65人，66人，......，70人，实际频数它的变化是不连续的。每一次变化相对于理论数来讲都会是跨度为1的变化，这样的话查边的时候就使得64和 $\large T$ （理论频数）之间的差距以及下一次抽样结果65和 $\large T$ （理论频数）之间的差距，使得我们在理论连续分布的卡方界值的时候，效果不是很好，于是我们就把64和65中间的这段距离均分，所以0.5是为了让我们解决不连续的资料又要借助连续的分布这样一种条件下，做的一个小小的修正，使得应用效果更加接近卡方分布的曲线下面积的实际情况。

$\large \chi ^{2} =\sum\frac{(\left | A-T \right |-0.5)^{2}}{T}$

$\large \chi ^{2}=\frac{(\left | ad-bc \right |-n/2)^{2}n}{(a+b)(c+d)(a+c)(b+d)}$

1.4 2×2列联表 $\large \chi ^{2}$ 检验的注意事项

1. $\large \chi ^{2}$ 校正公式仅用于四格表资料，对多组样本分布，一般不作校正。

2．当四格表资料 $\large n$ （总样本量）<40或 $\large T$ <1（四个格子当中任意一个格子的理论频数小于1）时，校正 $\large \chi ^{2}$ 值也不恰当，这时可以用Fisher确切概率法检验，见本章第四节。

3．两组疗效对比的必要前提之一，是两组患者“病情相似”，这一点非常重要（即要排除其他干扰因素），只有在两组对象其他方面“同质”的前提下才能比较两个频率，才能进行列联表的 $\large \chi ^{2}$ 检验。

二、多个独立样本R×C列联表资料的 $\large \chi ^{2}$ 检验

2.1 频率的比较

2.1.1 多样本之间的比较

表示行，表示列， $n_{i}$ 表示 $A_{ij}$ 对应的列合计， $m_{i}$ 表示 $A_{ij}$ 对应的行合计。

$\begin{align}\chi ^{2}&=n(\sum_{i=1}^{R}\sum_{j=1}^{C}\frac{A_{ij}^{2}}{n_{i}m_{j}}-1) \\&=102(\frac{35^{2}}{62\times 40}+\frac{5^{2}}{40\times 40}+\frac{20^{2}}{62\times 30}+\frac{10^{2}}{40\times 30}+\frac{7^{2}}{62\times 32}+\frac{25^{2}}{40\times 32}-1) \\&=102(0.4939+0.0156+0.2151+0.0834+0.0247+0.4883-1) \\&=32.742 \end{align}$

注意：图中 $24.31=40\times 60.78\%$ ，自由度 $\nu =(3-1)\times(2-1)=2$ ， $\large \chi ^{2}_{0.05, 2}=5.99$ ，32.74远大于5.99，则 $\large p<0.05$ ，三个药品疗效的差异具有统计学意义。

2.1.2 多样本之间的两两比较

注意：其中 $\large \chi^{2}(A,B)=4.419$ ，自由度 $\nu =(2-1)\times(2-1)=1$ ，反查 $\large \chi ^{2}$ 界值表， $\large P=0.036$ ，如果三者同时对比的时候取得 $\large \alpha =0.05$ ，则需要校正 $\large \alpha '=\alpha /3=0.018$ ， $\large P>\alpha '$ ，不拒绝原假设，AB药品疗效的差异不具有统计学意义。

2.2 独立样本频率的比较

注意：其中 $\large \chi^{2}=0.695$ ，自由度 $\nu =(4-1)\times(2-1)=3$ ，反查 $\large \chi ^{2}$ 界值表， $\large \chi^{2}_{0.80,3}=1.005$ ， $\large P>\alpha =0.80$ ，不拒绝原假设，两类患者的血型差异不具有统计学意义，可认为两类型患者的血型来自于同一个分布总体。

2.3 R×C列联表 $\large \chi ^{2}$ 检验注意事项

R×C列联表 $\large \chi ^{2}$ 检验要求理论频数不宜太小，不宜有1/5以上格子的理论频数小于5，也不宜有一个理论频数小于1，否则有可能产生
偏性。如果出现理论频数不满足此要求，可考虑选择如下方法处理：
(1) 增加样本含量；
(2) 结合专业知识将该格所在行或列与别的行或列合并（例如将上面的A、B、O、AB变成A、B、其他）；
(3) Fisher确切概率法，借助软件实现。

三、配对设计资料的 $\large \chi ^{2}$ 检验

配对设计资料：如下图132个资料都是确诊为阳性的个体，接下来用甲法和乙法来检验两个方法成功检测出的比例。来测试两个方法检验的成功率，是否有高低之分。

甲法的成功率：90/132

乙法的成功率：111/132

两者阳性率的对比可以简化为分子90和111的对比，进一步转化为10和31之间的对比，即前面介绍的四格表资料的b格子和c格子之间的对比。

我们对两种方法成功率的检验可以转化为检测b格子和c格子中的频数是否来自于同一总体，如果b和c被认为来自于同一总体，那么最合理的数值水平大小应该是，因为从这样的总体里最合理的可以得到当前的抽样结局，因为b和c都距离距离相等，如果要回答两种方法成功率是否相等，即回答b和c水平是否能够代表这个总体的水平。

于是，我们先假设b和c来自这个总体，当 $H_{0}$ 成立的情况下，理论上b和c应该距离不远,于是我们分别计算b、c和的不吻合度。

1.1 基本思想

计算公式

计算公式的校正(n=b+c<40)

1.2 $\large \chi ^{2}$ 值的计算

此命题中b+c>40，则使用普通公式即可。

注意：按自由度等于1 , 检验水准等于0.05, 查附表得 $\large \chi ^{2}_{0.05, 1}$ = 3.84。本例 $\large \chi ^{2}$ = 10.76，可知 $\large P$ <0.05。在 $\large \alpha$ =0.05水平上拒绝 $\large H_{0}$ ，两检验方法结果的差异具有统计学意义，且乙法的成功检出率（111/132）大于甲法的成功检出率（90/132）。

1.3 配对R×R列联表资料的 $\large \chi ^{2}$ 检验

注意：1、其中R 表示标签类别数。

2、按自由度等于2 , 检验水准等于0.05, 查附表得 $\dpi{100} \large \chi ^{2}_{0.05, 2}$ = 5.99。本例 $\large T$ = 1.60<5.99，可知 $\large P$ >0.05。在 $\large \alpha$ =0.05水平上不拒绝 $\large H_{0}$ ，两检验方法结果的差异不具有统计学意义。

3、配对设计的样本必须是150的样本，必须是总体样本抽取出来的一份随机样本，然后在进行甲乙法的检验，以此相对立的，例如，抽取了甲法“正常”的65人进行乙法的测定，然后抽取了甲法“减弱”的51人进行乙法的测定，有抽取了甲法“异常”的34人进行乙法的测定，这样的检验方法不是配对设计的研究，我们要求的是随机抽取150个样本，分别用甲法乙法进行测定。

四、列联表资料的确切概率法

注意：

1、n=23<40，样本量太小，用卡方检验或者校正的卡方检验效果不是很好，因为样本量太小，利用连续型卡方来近似检验效果较差。

2、行合计和列合计分别为10、13、12、11，最小值为10，即在满足行合计和列合计成立的条件下，可以组合的四个表资料共有11种情况，如下表所示。

$\large H_{0}$ 成立时所有可能结局有哪些？可能结局有11种。

本研究的“更极端状况”是哪些？即在 $\large H_{0}$ 成立的情况下，当前结局及更极端状况有1/2/3/4/8/9/10/11这几种情况。

注意：，表示双侧概率，即当前结局（发生的概率为 $\large P_{8}$ ）和更极端状况（比当前状况的有效率差值更大的情况发生的概率 $\large P_{1}+P_{2}+P_{3}+P_{4}+P_{9}+P_{10}+P_{11}$ ）的概率之和，表示单侧概率，双侧检验和单侧检验均 $\large P$ > $\large \alpha$ =0.05，即 $\large H_{0}$ 成立，不认为两种药品的疗效具有统计学意义。

五、 $\large \chi ^{2}$ 检验用于拟合优度检验

判断一个定量变量是否服从正态分布，是我们进行参数检验？还是非参数检验？的前提条件。

例：随机抽取了某地12岁男孩120名，测其身高如下：

试检验当地12岁男孩的身高是否服从正态分布？

注意：

1、（3）表示组段的下边界进行Z转换之后的概率分布面积，（4）表示组段的上边界进行Z转换之后的概率分布面积，（4）-（3）即为组段的下边界和上边界的曲线下面积。[（4）-（3）]*N（N表示样本量，此处为120）即为各组段的理论频数（6）。求出每一个组段的不吻合度 $\large \frac{(A_{i}-T_{i})^{2}}{T_{i}}$ ，并累加，即得到卡方 $\large \chi ^{2}=9.93733$ 。

2、自由度=组段数目-3（-1-1表示参数的数目（均值和标准差），-1表示总的样本量的限制），所以此题中的自由度为9-3=6。

3、根据自由度6，查卡方界值表， $\large \chi ^{2}_{0.10,6}=10.64$ ， $\large \chi ^{2}_{0.05 ,6}=12.59$ ，均大于9.93，则认为差异无统计学意义，即认为实际资料是按照理论假定的正太分布模式分布着的。

拟合优度 $\large \chi ^{2}$ 检验注意事项

1、每组中的理论频数不小于5，否则需要合并组段

2、合并后样本含量仍不大，则应进行连续性校正（注意，对不符合样本含量条件的组段进行校正即可，其余组段无需校正）

$\large \chi ^{2} =\sum\frac{(\left | A-T \right |-0.5)^{2}}{T}$

面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
Boostrap方法的理解及应用 Xiaofei@IDO 统计学概率论机器学习数据挖掘
1、Boostrap介绍1.1概念性解释Boostrap统计学方法是一种非参数检验方法，用于估计各种统计量的置信区间。Boostrap计算步骤简单的描述为：通过有放回的数据集的重采样，产生一系列的待检验统计量的Boostrap经验分布。基于该分布，计算标准误差，构建置信区间，并对多种类型的样本进行统计信息和假设检验。Boostrap统计学方法使用范围比较广，因为它不需要假定数据服从特定的理论分布（
KNN（K-近邻算法)(上)--day05 扫把星133 机器学习 python 人工智能近邻算法算法
KNN（K-NearestNeighbors，K近邻算法）是一种用于分类和回归的非参数化方法。其基本思想是通过找出与新样本最接近的已标记数据中的K个最近邻居来进行预测或分类。注释：非参数化方法是指在统计学和机器学习中，不对数据分布做出严格假设（这些假设通常包括
《python 数据分析从入门到精通》读书笔记｜了解数据分析｜数据分析基础知识
《python数据分析从入门到精通》读书笔记第一章：了解数据分析1.1什么是数据分析数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法，对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析，从中提取有价值的信息并形成结论进行展示的过程。数据分析实际上是通过数据的规律来解决业务问题，以帮助实际工作中的管理者做出判断和决策。数据分析包括以下几个主要内容：（1）现状分析：分
Rstudio：强大的R语言集成开发环境（IDE）简说基因-专业生信合作伙伴 r语言开发语言
Rstudio应该是R语言使用的标配，尽管Rstudio的母公司Posit推出了新一代的集成开发环境Positron，但其还处于开发阶段。作为用户不妨让其成熟后再使用，现阶段还是Rstudio更稳定。如果你在生物信息学或统计学领域工作，R语言几乎是必备的工具之一。而RStudio，作为R语言最流行的集成开发环境（IDE），为数据分析、可视化和编程提供了非常友好的平台。今天我们来介绍一下RStudi
全流程文献计量学可视化分析技术及SCI论文高效写作方法青春不败 177-3266-0520 生态环境人工智能 python 文献可视化 SCI论文生态学环境科学遥感
文献计量学是指用数学和统计学的方法，定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体，注重量化的综合性知识体系。特别是，信息可视化技术手段和方法的运用，可直观的展示主题的研究发展历程、研究现状、研究热点和发展态势。一：文献计量学方法与应用1.文献计量学方法基本2.与其他综述方法区别联系3.各学科领域应用趋势近况4.主流分析软件优缺点对比二：主题确定、检索与数据采集1.热点主题高效
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
经济学神图：洛伦兹曲线大千AI助手人工智能 Python #OTHER 决策树人工智能 DecisionTree 算法洛伦兹曲线基尼
洛伦兹曲线（LorenzCurve）是衡量社会收入或财富分配不平等程度的经典可视化工具，由美国统计学家马克斯·洛伦兹（MaxOttoLorenz）于1905年提出。它不仅是理解基尼系数的核心基础，也是经济学、社会学中分析资源分配公平性的关键图表。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！往期文
重复原则与样本量估计：临床试验的统计引擎 qq_34062333 临床试验统计学
一、重复原则的科学内涵1.1核心目的1.1.1量化随机误差通过足够样本量估计效应值的波动范围，确保结果可重现。1.1.2避免偶然性结论避免因小样本极端结果导致的偶然性结论，确保结论稳健。1.1.3提升外推性覆盖人群异质性，提升研究结果的外推性。1.2统计学本质1.2.1标准误样本量增加，标准误减小，置信区间变窄，精度提高。二、样本量估计的四大核心参数2.1显著性水平(α)2.1.1定义I类错误概率
随机近似算法：步长序列选择的理论与金融实践
随机近似算法：步长序列选择的理论与金融实践摘要随机近似算法作为统计学习与优化的核心工具，其收敛性与稳定性高度依赖步长序列的设计。本文系统阐述步长序列的理论约束与工程选择策略，并结合金融波动率估计场景，展示算法在动态系统参数估计中的实践价值。1.随机近似算法的数学框架随机近似算法通过随机样本的迭代更新逼近目标参数，其核心迭代式为：θn+1=θn+an(Yn−g(θn))\theta_{n+1}=\t
什么是回归模型，什么是自回归模型？杰瑞学AI Computer knowledge AI/AGI NLP/LLMs 回归数据挖掘人工智能
在统计学和机器学习中，回归模型和自回归模型都是用来预测或建模变量之间关系的工具，但它们在数据类型和变量依赖关系上有着关键的区别。回归模型(RegressionModel)回归模型是一种统计方法，用于建立一个或多个自变量（independentvariables）与一个因变量（dependentvariable）之间的关系。它的主要目标是预测因变量的值，或者理解自变量如何影响因变量。核心思想：假设因
使用argparse封装python程序为命令行工具纪伊路上盛名在生信推文-python python 开发语言自动化
小规模的python代码，jupytercell中直接运行，相当于该py文件直接python运行，但是像shell脚本一样，给予参数自由度设置，更方便分析，也就是我们需要传入参数进行重复性、同质性的操作。Q：如何使用argparse将Python程序封装为可调用的命令行工具？比如说我有一个函数，各个模块我已经写好了，这里引用一下我之前上统计学习课的时候举的一个HMM的例子，简单来说，就是一阶HMM
贝叶斯算法：从概率推断到智能决策的基石 weixin_47233946 算法算法
##引言在人工智能与机器学习的蓬勃发展中，贝叶斯算法以其独特的概率推理方式和动态更新的特性，在垃圾邮件过滤、疾病诊断、推荐系统等关键领域展现出强大的应用价值。本文将从概率论基础出发，深入解析贝叶斯算法的核心思想及其实现方式，揭示这一统计学方法如何演变为现代智能系统的决策利器。---##一、贝叶斯定理：概率之门的钥匙###1.1基本公式表述贝叶斯定理的数学表达式揭示事件间的关联关系：$$P(A|B)
特征筛选方法总结（面试准备15）爱学习的uu 人工智能大数据数据挖掘决策树
非模型方法一.FILTER过滤法：1.缺失值比例（80%以上缺失则删除）/方差注意：连续变量只删方差为0的，因为变量取值范围会影响方差大小。离散类的看各类取值占比,如果是三分类变量可以视作连续变量。函数：VarianceThreshold二.假设检验：卡方检验看离散变量是否独立方差分析看离散和连续变量是否独立F检验看连续变量是否独立三.互信息的关联度指标：相关系数(f_regression:是相关
CART算法全解析：分类回归双修的决策树之王大千AI助手人工智能 Python #OTHER 算法分类回归决策树数据挖掘 CART DecisionTree
CART（ClassificationandRegressionTrees）是决策树领域的里程碑算法，由统计学家Breiman等人在1984年提出。作为当今最主流的决策树实现，它革命性地统一了分类与回归任务，其二叉树结构和剪枝技术成为现代集成学习（如随机森林、XGBoost）的基石。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕
python scipy简介凤枭香 Python 图像处理 python scipy 开发语言图像处理
scipyscipy是一个python开源的数学计算库，可以应用于数学、科学以及工程领域，它是基于numpy的科学计算库。主要包含了统计学、最优化、线性代数、积分、傅里叶变换、信号处理和图像处理以及常微分方程的求解以及其他科学工程中所用到的计算。scipy模块介绍scipy主要通过下面这些包来实现数学算法和科学计算，后面对于scipy的讲解主要也是基于这些包来实现的cluster：包含聚类算法co
Task 01 第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。回忆知识点：统计学习方法三要素为：模型+策略+算法模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。策略：统计学习要考虑按照什么样的准则选
AI大模型从0到1记录学习大模型技术之机器学习 day27-day60 Gsen2819 算法大模型人工智能人工智能学习机器学习
机器学习概述机器学习（MachineLearning,ML）主要研究计算机系统对于特定任务的性能，逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。人工智能、机器学习与深度学习人工智能（AI）是计算机科学的一个广泛领域，
程序员转向人工智能 CoderIsArt 机器学习与深度学习人工智能
以下是针对程序员转向人工智能（AI）领域的学习路线建议，分为基础、核心技术和进阶方向，结合你的编程背景进行优化：1.夯实基础数学基础（选择性补足，边学边用）线性代数：矩阵运算、特征值、张量（深度学习基础）概率与统计：贝叶斯定理、分布、假设检验微积分：梯度、导数（优化算法核心）优化算法：梯度下降、随机梯度下降（SGD）学习资源：3Blue1Brown（视频）、《程序员的数学》系列编程工具Python
（详细介绍）什么是 Spherical Gaussian（球形高斯分布）音程数学数学
文章目录什么是SphericalGaussian？几何意义：为什么叫“球形”？特点总结：应用场景举例：✅示例代码（Python）相关概念对比：SphericalGaussian（球形高斯分布）是概率论与统计学中一个非常常见且重要的概念，尤其在机器学习、信号处理、模式识别等领域有广泛应用。什么是SphericalGaussian？SphericalGaussianDistribution（球形高斯分
AI模型的泛化性的第一性原理是什么？ mao_feng 人工智能
目录**一、泛化性的第一性原理：统计学习理论的核心****1.独立同分布假设（IID）是泛化的基础****2.泛化误差：理论本质的数学刻画****3.模型复杂度与样本量的权衡****二、实现泛化的核心机制：正则化与隐式约束****1.显式正则化：复杂度惩罚****2.隐式正则化：优化过程的泛化诱导****3.数据层面的泛化增强****三、深度学习的特殊性：过参数化与泛化的悖论****1.“双下降曲
假设检验：统计推断的决策艺术 Algo-hx 概率论与数理统计概率论
目录引言8假设检验8.1假设检验的基本原理8.1.1核心概念框架8.1.2假设形式8.2检验的两类错误8.2.1错误类型矩阵8.2.2错误概率关系8.3单正态总体参数检验8.3.1均值μ的检验8.3.2方差σ²的检验8.4双正态总体参数检验8.4.1均值差检验8.4.2方差比检验8.5P值：检验的客观度量8.5.1P值定义8.5.2决策规则8.5.3P值解读引言假设检验是统计学的’审判法庭’——通
贝叶斯原理：解锁不确定性的智慧钥匙（全网最详细）富士达幸运星贝叶斯原理人工智能机器学习
在浩瀚的统计学与概率论海洋中，贝叶斯原理如同一盏明灯，照亮了我们在不确定性中前行的道路。它不仅仅是一种计算方法，更是一种深刻的思维方式，让我们能够基于有限的信息和先验知识，对未知事件做出更加合理的预测和判断。本文将带您一窥贝叶斯原理的奥秘，探索它如何在各个领域发光发热。一、贝叶斯原理的起源与核心概念起源贝叶斯原理得名于18世纪的英国数学家托马斯·贝叶斯（ThomasBayes），尽管他本人并未直接
利用 Python 和 scikit - learn 进行分层抽样 Python编程之道 python 开发语言 ai
利用Python和scikit-learn进行分层抽样关键词：分层抽样、scikit-learn、Python、数据采样、机器学习、数据预处理、统计学摘要：本文深入探讨了分层抽样在数据科学和机器学习中的应用。我们将从统计学基础出发，详细讲解分层抽样的原理、优势以及实现方法。通过Python和scikit-learn库的实际代码示例，展示如何在不同场景下应用分层抽样技术。文章还涵盖了分层抽样的数学模
JAVA推荐系统-基于用户和物品协同过滤的电影推荐泰山AI 技术交流推荐算法 java 算法
系统原理该系统使用java编写的基于用户的协同过滤算法（UserCF）和基于物品（此应用中指电影）的协同过滤(ItemtemCF）利用统计学的相关系数经常皮尔森（pearson）相关系数计算相关系数来实现千人千面的推荐系统。协同过滤算法协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。协同过滤(CollaborativeFiltering,简写CF)是推荐系统最重要得思想
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

统计推断——假设检验——卡方检验

一、独立样本四格表资料的检验

问题的提出：

1.1 检验的基本思想

1.2 2×2列联表检验的基本步骤

1.3 2×2列联表检验的专用公式

1.4 2×2列联表检验的注意事项

二、多个独立样本R×C列联表资料的检验

2.1 频率的比较

2.2 独立样本频率的比较

2.3 R×C列联表检验注意事项

三、配对设计资料的检验

1.1 基本思想

1.2 值的计算

1.3 配对R×R列联表资料的检验

四、列联表资料的确切概率法

五、 检验用于拟合优度检验

拟合优度检验注意事项

你可能感兴趣的:(假设检验,统计学)

一、独立样本四格表资料的 $\large \chi ^{2}$ 检验

1.1 $\large \chi ^{2}$ 检验的基本思想

1.2 2×2列联表 $\large \chi ^{2}$ 检验的基本步骤

1.3 2×2列联表 $\large \chi ^{2}$ 检验的专用公式

1.4 2×2列联表 $\large \chi ^{2}$ 检验的注意事项

二、多个独立样本R×C列联表资料的 $\large \chi ^{2}$ 检验

2.3 R×C列联表 $\large \chi ^{2}$ 检验注意事项

三、配对设计资料的 $\large \chi ^{2}$ 检验

1.2 $\large \chi ^{2}$ 值的计算

1.3 配对R×R列联表资料的 $\large \chi ^{2}$ 检验

五、 $\large \chi ^{2}$ 检验用于拟合优度检验

拟合优度 $\large \chi ^{2}$ 检验注意事项