IN_Joseph

统计学笔记【1】方差分析 ANOVA

1 基本概念

1.1 定义及应用

从形式上看，方差分析比较多个总体的均值是否相等，本质上是研究分类型自变量对数值型因变量的影响（eg:行业是否对被投诉次数有影响），与回归分析的方法有许多相同之处，但又有本质区别。在研究一个（或多个）分类型自变量与一个数值型因变量之间的关系时，方差分析就是其中的主要方法之一。方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

1.2 因子、水平

在方差分析中，所要检验的对象称为因素或因子（factor）。
因素的不同表现称为水平或处理（treatment）。
每个因子水平下得到的样本数据称为观察值。

下面是一个单因素4水平的试验：

1.3 误差分解

1.3.1 组内误差 SSE

来自水平内部的数据误差称为组内误差。

例如在上表中，零售业中抽取的7家企业之间的投诉次数是不同的，由于企业是随机抽取的，因此他们之间的差异可以看成是随机因素的影响造成的。

组内误差只含有随机误差。

1.3.2 组间误差 SSA

来自不同水平之间的数据误差称为组间误差。
这种差异可能是由抽样本身形成的随机误差，也可能是由行业本身的系统性误差造成的系统误差。组间误差是随机误差和系统误差的总和。

1.3.3 SST、SSE、SSA

1、反应全部数据误差大小的平方和称为总平方和，记为SST。
试验中，23家企业被投诉次数之间的误差平方就是总平方和，反应全部观测值的离散状况。
自由度为n-1，n为全部观测值的个数
2、反应组内误差大小的平方和称为组内平方和，也称为误差平方和或者残差平方和，记为SSE。
试验中，每个样本内部的数据平方和加在一起就是组内平方和，反应每个样本内各观察值的离散情况。
自由度为n-k，k为因素水平（总体）的个数
3、反应组间误差大小的平方和称为组间平方和，也称为因素平方和，记为SSA。
组间误差可能是由抽样本身形成的随机误差，也可能是由行业本身的系统性因素造成的系统误差，因此，组间误差是随机误差和系统误差的总和。
试验中，四个行业被投诉次数之间的误差平方和就是组间平方和，反应了样本均值之间的差异程度。
自由度为k-1

SST = SSE + SSA

总结：

SSA是对随机误差和系统误差大小的度量，它反映了自变量（行业）对因变量（被投诉数）的影响，也称为自变量效应****或因子效应。
SSE是对随机误差大小的度量，它反映了除自变量对因变量的影响之外，其他因素对因变量的总影响，因此SSE也称为残差变量，它所引起的误差也称为残差效应。
SST是对全部数据总误差程度的度量，它反映了自变量和残差变量的共同影响，因此它等于自变量效应加残差效应。

1.3.4 MSA、MSE

MSA= 组间平方和/自由度 = SSA/（k-1）
MSE=组内平方和/自由度 = SSE/（n-k）

由于各误差平方和的大小与观测值的多少有关，为了消除观测值多少对误差平方和大小的影响，需要将其平均，也就是用个平方和除以它们所对应的自由度，这一结果称为均方。

** 如果不同行业对被投诉次数没有影响，那么在组间误差中，值包含随机误差，而没有系统误差。这时，组间误差与组内误差经过平均后的数值（称为均方或方差）就应该很接近，他们的比值就会接近1。

** 反之，如果不同行业对被投诉次数有影响，在组间误差中除了包含随机误差，还会包含系统误差，这时组间误差平均后的数值就会大于组内误差平均后的数值，他们之间的比值就会大于1。

判断行业对被投诉次数是否有显著影响，实际上也就是检验被投诉次数的差异主要是由什么原因引起的，如果这种差异主要是系统误差，就认为不同行业对被投诉次数有显著影响，也就是检验四个行业被投诉次数的均值是否相等。

1.4 方差分析中的基本假定

1.4.1 每个总体都服从正态分布

对因素的每一水平，其观测值都是来自正态分布总体的简单随机样本。

1.4.2 各个总体的方差必须相同

每个行业被投诉次数的方差相同。

1.4.3 观测值是独立的

1.5 假设的一般提法

H0：u1=u2=u3=u4 （自变量对因变量没有显著影响）
H1：u1、u2、u3、u4 不全相等（自变量对因变量有显著影响）

2 单因素方差分析

2.1分析过程

1、提出假设

2、构造检验的统计量：

（1）各样本的均值
各个行业的样本均值（X1,X2,X3,X4）

（2）全部观察值的总均值
总均值（x）

（3）计算各误差平方和：SST，SSE，SSA
SST：各个观测值和总均值（x）的误差平方和
SSE：各个行业的均值（X1,X2,X3,X4）和总均值（x）的误差平方和
SSA：各个行业内的样本数据和其组均值的误差平方和

（4）计算统计量 MSA、MSE
MSA= 组间平方和/自由度 = SSA/（k-1）
MSE=组内平方和/自由度 = SSE/（n-k）

（5）计算F统计量

F统计量

当H0为真时，msa、mse的比值服从分子自由度为k-1，分母自由度为n-k的F分布：
F=MSA/MSE ~ F（k-1,n-k）
3、统计决策

如果H0：u1=u2=u3=u4成立，则表明没有系统误差，组间方差MSA与组内方差MSE的比值就不会太大；如果组间方差显著大于组内方差，说明各水平（总体）之间的差异显然不仅仅有随机误差，还有系统误差。
显著水平a，F分布表中查找临界值Fa
若F>Fa，则拒绝原假设，表明行业对被投诉次数有显著影响
若F

2.2 关系强度的测量 R平方

- 只要组间平方和（组间SS）不等于零，就表明两个变量之间有关系（只是是否显著的问题）。
- 当组间平方和比组内平方和大，且大道一定程度时，就以为这两个变量之间的关系显著。大得越多，表明他们之间的关系就越强。
- 反之，当组间平方和比组内平方和小时，就意味着两个变量之间的关系不显著，小得越多，表明他们之间的关系就越弱。

eg：R平方=35%，则表明，行业对被投诉次数的影响效应占总效应的35%，而残差效应占65%。尽管R平方并不是很高，但是行业对被投诉次数的影响已经达到统计上显著的程度。

2.3 多重比较

不同行业被投诉次数的均值不完全相同，但是究竟是哪些均值之间不相等？就需要用到多重比较方法，通过对总体之间的配对比较来进一步验证到底哪些均值之间存在差异。

多重比较方法有许多种，下面的是由费希尔提出的最小显著差异方法（LSD），步骤如下：
1、提出假设：

H0:ui=uj
H1:ui != uj

2、计算统计量xi - xj （两个总体的均值之差）
3、计算LSD = t (a/2)*标准误
t的自由度为n-k

4、如果| xi - xj | > LSD ，拒绝H0

ps：一个因子，如果有m个水平，则要做cm2个检验

2.4 用excel进行分析

【数据】-【数据分析】-【方差分析：单因素方差分析】

SS：平方和
MS：均方
df ：自由度
F：检验的统计量
P-value：检验的P值
F crit ：给定a水平下的临界值

决策：
（1）P （2）F > F crit ，拒绝H0

3 双因素方差分析

方差分析中涉及两个分类自变量，称为双因素方差分析

如果双因素分析中，如上例，品牌和地区对销售量的影响是相互独立的，分别判断品牌和地区对销售量的影响，这时的双因素分析称为无交互作用的双因素方差分析，或者称为无重复双因素分析。
如果两个因素除了对销售量的单独影响，两个因素的搭配还会对销售额产生一种新的影响，例如，某地区对某品牌的彩电有特殊偏好，这就是两个因素结合后产生的新的小银，这时的双因素分析称为有交互作用的双因素分析，或者称为可重复双因素分析。

3.1 无交互作用的双因素分析

3.1.1分析步骤

行因素有k个水平，列因素有r个水平

1、提出假设
（1）对行因素提出假设：
H0：u1=u2=u3=u4=u5 （行因素对因变量没有显著影响）
H1,：u1、u2、u3、u4、u5 不全相等（行因素对因变量有显著影响）

（2）对列因素提出假设：
H0：u1=u2=u3=u4 （列因素对因变量没有显著影响）
H1,：u1、u2、u3、u4不全相等（列因素对因变量有显著影响）

2、构建检验的统计量：SST、SSR、SSC、SSE、F统计量
SST=SSR+SSC+SSE

SST：自由度：kr-1，所有观测值与总体均值的误差平方和。
SSR：自由度：k-1，行因素产生的误差平方和。（等于每一行的平均数（k个），与总体均值之间的方差）
SSC：自由度：r-1，列因数产生的误差平方和。（等于每一列的平均数（r个），与总体均值之间的方差）
SSE：自由度：(k-1)*(r-1) ，随机误差平方和。
均方
MSR = SSR/(k-1）
MSC = SSC/(r-1)
MSE = SSE/(k-1)(r-1)

F统计量

（1）检验行因素对因变量的影响是否显著：
Fr = MSR/MSE ~F(k-1，(k-1)(r-1))

（2）检验列因素对因变量的影响是否显著：
Fc = MSC/MSE ~F(r-1，(k-1)(r-1))

3、统计决策
根据显著水平a和两个自由度，查F分布表得到相应的两个临界值Fa，分别与Fr和Fc进行比较

Fr > Fa，拒绝H0，说明品牌对销售量有显著影响。
Fc < Fa，不拒绝H0，不能认为地区对销售量有显著影响。

3.1.2 关系强度的测量R平方

R平方 = 联合效应/总效应 = (SSR+SSC)/SST

上述案例中，R平方= 83.94%，这表明，品牌因素和地区因素合起来总共解释了销量差异的83.94%，其他因素（残差变量）只解释了销售量差异的16.06%，而R=0.9162，这表明品牌和地区两个因素合起来与销售量之间有较强的关系。

3.1.3对比分别做单因素方差分析

分别考察品牌和地区与销售量之间的关系
（1）地区单因素方差分析

F （2）品牌单因素方差分析

对比

双因素方差分析中的误差平方和等于2872.7，比分别进行单因素方差分析的任何一个平方和（488.4和15877.25）都小，且P值也变得更小了。

因为在双因素方差分析中，误差平方和不包括两个自变量中的任何一个，因而减少了残差效应。而分别做单因素方差分析时，将行因素（品牌）作自变量时，列因素（地区）被包括在残差中，同样，将列因素作自变量时，行因素被包括在残差中。
因此，对于两个自变量而言，进行双因素方差分析要优于分别对两个因素进行单因素方差分析。

3.2 有交互作用的双因素方差分析

研究：不同路段和不同时间段对形成时间的影响。
试验：分别在两个路段的高峰期和非高峰期驾车进行试验，通过试验获得20个行车时间的数据。
分析：路段、时段以及路段和时段的交互作用对行车时间的影响。

由结果可知，

用于检验“时段”（行因素、样本）的P值
用于检验“路段”（列因素）的P值
交互作用反应的是时段因素和路段因素联合产生的对行车时间的附加效应，用于检验的P值>a=0.05，因此不拒绝原假设，没有证据表明时段和路段的交互作用对行车时间有显著影响。

k：行变量有k个水平，此处k=2
r：列变量有r个水平，此处r=2
n：观察数据的总数，此处n=20
m：行变量中每个水平的行数（每个样本的行数），此处m=5

ps：
区别：

你可能感兴趣的:(统计学)

机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
数学中的“矩” heraldww 数学概率论人工智能机器学习
数学中的“矩”矩的数学意义，高度总结：数学上，“矩”是一组点组成的模型的特定的数量测度。在力学和统计学中都有用到“矩”。如果这些点代表“质量”，那么：零阶矩表示所有点的质量；一阶矩表示质心；二阶矩表示转动惯量。如果这些点代表“概率密度”，那么：零阶矩表示这些点的总概率（也就是1）；一阶矩表示期望；二阶（中心）矩表示方差；三阶（中心）矩表示偏斜度；四阶（中心）矩表示峰度；这个数学上的概念和物理上的“
本福特定律: 为什么银行存款、河流长度等集合的首位数字更容易出现 1 而不是 9？ go
银行存款、河流长度等数据的首位数字更容易出现1而不是9，这背后的数学原理是本福特定律（Benford'sLaw）。本福特定律的概述本福特定律（Benford'sLaw）又称首位数字定律，是一种描述自然生成数据中数字分布规律的统计学现象。该定律揭示了在多种实际数据集中，数字1-9作为首位数字出现的概率呈现特定规律性分布。数学表达式首位数字d出现的概率为：P(d)=log₁₀(1+1/d)，其中d∈{
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
如果我想成为一名大数据和算法工程师，我需要学会哪些技能，获取大厂的offer 红豆和绿豆杂谈大数据算法
成为一名大数据和算法工程师并获取大厂Offer，需要掌握一系列核心技能，并具备丰富的项目经验与扎实的理论基础。以下是详细的技能要求和建议：---###**1.数学与理论基础**-**数学知识**：掌握线性代数、微积分、概率论和统计学，这些是设计和理解算法的基础。-**机器学习理论**：深入理解常见机器学习算法（如线性回归、逻辑回归、决策树、随机森林、SVM、K-means等），了解其原理、优缺点及
定积分及其在概率论与统计学中的应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
定积分及其在概率论与统计学中的应用1.背景介绍1.1定积分的概念定积分是微积分学中一个基本概念,它是对连续函数在一个区间上的累积变化量进行测度。定积分可以看作是对无限小量的累加,是对函数在给定区间内的面积进行测量。1.2定积分在概率论与统计学中的重要性在概率论和统计学中,定积分扮演着非常重要的角色。概率论中的概率密度函数、累积分布函数等核心概念都需要借助定积分来定义和计算。统计学中的置信区间估计、
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
23章9节：分层随机抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 机器学习人工智能算法
在统计学和数据科学的实际工作中，抽样方法始终扮演着至关重要的角色。如何从庞大的总体中获取具有代表性的样本，一直是数据分析过程中需要面对的核心问题之一。分层随机抽样作为一种常用的抽样方法，因其能够针对总体中的不同亚群体（层）进行有针对性的抽样，从而提高样本代表性、降低抽样误差，被广泛应用于社会调查、市场研究、医学试验等各个领域。本文旨在系统地阐述分层随机抽样的理论基础、抽样方法及其在R语言中的实现，
应用统计学学什么科目_统计学考研科目分别有哪些？你都知道吗心言星愿应用统计学学什么科目
在现实社会社会中统计学的应用范围是比较广泛的，想要报考统计学的朋友也是不再少数的，那么问题就来了关于统计学应该要学习哪一些科目呢，下面就来详细的看一下关于统计学方向具体的统计学考研科目分别有那些。首先对于统计学来讲英语政治史必然的初试科目，而专业课的考研科目具体是什么还是要看你选择的院校的实际出题情况了，所以在确定了考研科目之后一定要在在确定一下你想去的高校，以便能够更好的准备。在来看一下在学校方
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
智商测试原理全解析：从心理学到统计学，一文读懂(包含数据接口 2401_84193787 职场发展职场和发展求职招聘单一职责原则
智力测验（IntelligenceTest）是有关人的普通心智功能的各种测验的总称，又称普通能力测验。编制这类测验的目的是为了综合评定人的智力水平。早期编制的智力测验多采取个人测验的形式，这是单独评估心智功能的最好方法。国际上常用的个人智力测验主要有两种：斯坦福-比奈智力量表和韦克斯勒智力量表。现在常用测验包括：比奈－西蒙智力量表、韦克斯勒智力量表、斯坦福一比奈智力量表、瑞文标准智力测验、军队甲种
23章11节：自助抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 microsoft 信息可视化
在统计学中，数据分析的核心任务之一是如何在样本数据的基础上推断总体的性质。传统方法往往依赖于已知的概率分布假设和解析推导，但在现实问题中，我们往往无法准确得知总体分布，或者数据样本量较小，难以满足经典统计推断方法的要求。自助抽样作为一种非参数的计算方法，为我们提供了基于样本数据“自我重复”构建抽样分布的途径。1977年，斯坦福大学的B.Efron在著名论文《BootstrapMethods:Ano
ANOVA：在Python中构建和理解ANOVA（方差分析） python收藏家 python 数据科学 python
ANOVA（方差分析）是一种统计技术，用于确定三个或更多独立（不相关）组的平均值之间是否存在任何统计学显著差异。它有助于检验关于组间均值差异的假设，在比较多个组时特别有用。在Python中，可以使用scipy.stats模块中的f_oneway函数来执行单因素方差分析（one-wayANOVA），或者使用statsmodels库中的ANOVA类来进行更复杂的方差分析。重要概念总体均值（Popula
【人工智能数学基础】——深入详解贝叶斯理论：掌握贝叶斯定理及其在分类和预测中的应用猿享天开人工智能数学基础专讲分类数据挖掘人工智能贝叶斯数学
深入详解贝叶斯理论：掌握贝叶斯定理及其在分类和预测中的应用贝叶斯理论（BayesianTheory）是概率论和统计学中的一个重要分支，它以托马斯·贝叶斯（ThomasBayes）命名，主要关注如何根据新的证据更新对某一事件的信念。贝叶斯定理作为贝叶斯理论的核心，在机器学习、数据分析、决策科学等多个领域中具有广泛的应用。本文将深入探讨贝叶斯定理的理论基础、数学表达及其在分类和预测中的应用，辅以实例和
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE） sdgfbhgfj R语言初见机器学习数据挖掘人工智能数据分析 r语言
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）目录R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）R语言是解决什么问题的？R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）安利一个R语言的优秀博主及其CSDN专栏：R语言是解决什么问题的？R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的RossIhak
机器学习数学基础：29.t检验 @心都机器学习人工智能
一、t检验的定义与核心思想（一）定义t检验（Student’st-test）是一种在统计学领域中广泛应用的基于t分布的统计推断方法。其主要用途在于判断样本均值与总体均值之间，或者两个独立样本的均值之间、配对样本的均值之间是否存在显著差异。例如，在教育研究中，可以通过t检验判断某个班级学生的平均成绩与全校学生的平均成绩是否有显著差异；在医学实验里，可用于比较实验组和对照组的患者某项生理指标的均值是否
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
支持向量机 SVM 简要介绍 _夜空的繁星_ 机器学习 svm 支持向量机拉格朗日对偶机器学习
那些我从来没有理解过的概念（1）下面是我在学习过程中遇到的对我很难理解的概念和我抄下来的笔记主要资料来源：《统计学习方法》，维基百科拉格朗日对偶问题是什么假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数，考虑以下最优化问题：$$\min_{x\inR^n}{f(x)}\c_i(x)\leq0,i=1,2,\dots,k\h_j(x)=0,j=1,2,\dots,l$$是一个凸优化问
【练习】PAT 乙 1061 判断题柠石榴 PAT 题解输入输出算法 c++
题目判断题的评判很简单，本题就要求你写个简单的程序帮助老师判题并统计学生们判断题的得分。输入格式：输入在第一行给出两个不超过100的正整数N和M，分别是学生人数和判断题数量。第二行给出M个不超过5的正整数，是每道题的满分值。第三行给出每道题对应的正确答案，0代表“非”，1代表“是”。随后N行，每行给出一个学生的解答。数字间均以空格分隔。输出格式：按照输入的顺序输出每个学生的得分，每个分数占一行。输
总体方差和样本方差然后就去远行吧疑难杂症
在统计描述中，方差用来计算每一个变量*（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式：σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差，XXX为变量，μ\muμ为总体均值，NNN为总体例数。在实
利用R语言irr包计算ICC值（组内相关系数） mlhylzqwxli r语言
ICC值是一个较为陌生的概念，在统计学中应用较多，引用百度百科的介绍：组内相关系数(ICC)是衡量和评价观察者间信度(inter-observerreliability)和复测信度(test-retestreliability)的信度系数(reliabilitycoefficient)指标之一。它最先由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度，故其值介
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
016.3月夏令营：数理类力学AI有限元保研
016.3月夏令营：数理类：中国人民大学统计学院：http://www.eeban.com/forum.php?mod=viewthread&tid=386109北京大学化学学院第一轮：http://www.eeban.com/forum.php?m...6026&extra=page%3D1香港大学化学系夏令营：http://www.eeban.com/forum.php?mod=viewthr
多独立样本秩检验：Kruskal-Wallis检验木子算法非参数统计非参数检验概率论统计
多独立样本秩检验：Kruskal-Wallis检验的理论与实践一、引言在统计学中，当数据不满足正态分布或方差齐性假设时，传统的参数检验（如方差分析ANOVA）可能失效。此时，非参数检验方法（如秩检验）成为更可靠的选择。本文将详细介绍多独立样本秩检验的核心方法——Kruskal-Wallis检验，包括其理论基础、公式推导、案例分析及Python实现。二、理论基础1.问题定义假设我们有kkk个独立样本
r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记？蒲牢森 r语言手动算两个C指数p值
作者：一只想飞的喵审稿：童蒙编辑：angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值，且添加显著性标记。通常情况根据显著性p值的数值大小，分为四类：(1)0.01≤p<0.05，*(2)0.001≤p<0.01，**(3)0.0001≤p<0.001，***(4)p<0.0001,****接下来会讲述三种添加显著性标记的方法。方法1-手动添加1：创建数据
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他