FarmerJohn

广义线性混合模型GLMM

广义线性混合模型GLMM（Generalized Linear Mixed Model），是广义线性模型GLM 和线性混淆模型LMM 的扩展形式，于二十世纪九十年代被提出。GLMM因其借鉴了混合模型的思想，其在处理纵向数据（重复测量资料）时，被认为具有独特的优势。GLMM不仅擅长处理重复测量资料，还可以用于任何层次结构的数据（因为本质上又是多水平模型）。

提到GLMM，有必要先介绍几个容易混淆的概念：GLM、LMM、MLM、GMM 和GEE。

相关模型简介

广义线性模型 GLM

广义线性模型GLM，是大家经常接触的概念了，比如经典的Logistic模型。GLM是普通线性模型的扩展形式，由于普通线性回归的因变量必须服从正态分布，而实际问题中经常会遇到分类问题或计数问题的建模，GLM采用连接函数（Link Function），将因变量的分布进行了扩展，使得因变量只要服从指数分布族即可（如正态分布，二项分布，泊松分布，多项分布等）。

GLM 可以分解为 Random Component、System Component 和 Link Function 三个部分。Random Component 为残差部分，取决于因变量的分布；System Component 为预测部分，又称 linear predictor，是拟合的关键；Link Function 为连接变化函数，用于将指数分布族转化成正态分布，或者说，对预测结果进行非线性映射（建立 linear predictor与 label 之间的变换关系），是LM成长为GLM的关键环节。

需要强调的是，link function 是从 label 映射到 linear predictor的过程，link function的反函数称为响应函数 response function。响应函数把 linear predictor 直接映射到了预测目标 label。较常见的link function如 logit函数（又称log-odds）；较常用的响应函数如 logistic（又称sigmoid，是二分类中的相应函数）和 softmax（是sigmoid的扩展形式，用于多分类问题），这两个都是 logit 的反函数。

以 Logistic为例，如下（本部分摘自：GLM(广义线性模型) 与 LR(逻辑回归) 详解）：

最后啰嗦一句，因变量为Bernoulli Distribution也就是对二分类问题建模，因变量为Binomial Distribution也就是对多分类问题建模，因变量为Poisson Distribution也就是对计数问题建模（注意区分计数问题和多分类问题）。

本文讲得比较简略，有两篇博客对GLM总结得比较棒，给出链接如下，值得一读：

GLM(广义线性模型) 与 LR(逻辑回归) 详解

广义线性模型GLM

线性混合模型 LMM

本部分参考自：《高级医学统计学》和 Wiki: Mixed_model

线性混合模型LMM，又称混合线性模型MLM、混合模型MM、多水平模型MLM、随机系数模型RCM、等级线性模型HLM 等。首先看一下 Wiki上对混合模型MM的介绍：A mixed model (or more precisely mixed error-component model) is a statistical model containing both fixed effects and random effects. （注意：fixed在这里译为固定，不同于mixed混合）

混合模型擅长于处理纵向数据（重复测量数据）和有缺失的数据，并且往往优于ANOVA等方法。

在混合模型中，需要区分两个概念：random effects与 random errors。

以矩阵定义混合模型，可以写成：

$y=X\beta+Z\gamma +\epsilon$

是观测值的向量，服从多元正态分布，且平均值可以表示为 $E(y)=X\beta$

$\beta$ 是固定因子的效应值（与X对应的固定效应参数向量）

$\gamma$ 是随机因子的效应值，服从多元正态分布，且平均值为 $E(\gamma)=0$ ，它的方差为 $Var(\gamma)=G$

$\epsilon$ 是残差的向量矩阵，它的平均值为 $E(\epsilon )=0$ ，它的方差为 $Var(\epsilon )=R$

为固定效应自变量的设计矩阵（可包括连续性变量和分类变量，甚至可包含交互项或二次项等），为随机效应变量构造的设计矩阵。

[ 注意：切勿将固定效应狭义理解为主要变量，而应该是所有可能的解释变量（如分组变量和时间变量），包括这些变量之间的交互项。而随机效应则是假定的随机效应部分（这部分的意义应当从多水平模型的角度来理解了） ]

该模型为固定效应 $X\beta$ 和随机效应 $Z\gamma$ 的混合，且固定效应和随机效应均与响应变量为线性关系，因此称为线性混合模型。

注意：当满足球形检验时，重复测量资料的线性混合效应模型可退化为一般线性模型。

混合模型的假定为 $\gamma\sim N(0,G)$ ， $\epsilon \sim N(0,R)$ ，其中 $Cov(\gamma,\epsilon )=0$ ，即两者的协方差为0（二者互相独立）。可以给出Henderson's "mixed model equations" (MME)：

The solutions to the MME， $\hat{\beta}$ and $\hat{u}$ are best linear unbiased estimates (BLUE) and predictors (BLUP) for $\beta$ and （此处的指的就是 $\gamma$ ，有的版本习惯使用来替代 $\gamma$ 字符）, respectively. 拟合混合模型还可以使用 EM 算法。

工具包：R (nlme包中的lme方法，或 lme4 包中的lmer方法), Python (statsmodels包)。

多水平模型 MLM

本部分参考自：《高级医学统计学》

多水平模型其实和线性混合模型LMM是等价的，只是理解的角度不同而已。MLM是从模型组建的多个水平来理解，关注构建过程；LMM则仅关注模型构建的结果（固定效应部分+随机效应部分）。多水平模型可以分层表述，然后整合成一个公式（即等价于LMM的公式）。下面以两水平模型为例，进行解读。

一个包含“2个水平1的解释变量（x和z）和1个水平2的解释变量（w）”的两水平模型可以表述为：

$\\ y_{ij}=\beta _{0j}+\alpha _1x_{1ij}+\beta _{1j}z_{1ij}+e_{ij} \\ \beta _{0j}=\gamma _{00}+\gamma _{01}w_{1j}+u_{0j} \\ \beta _{1j}=\gamma _{10}+\gamma _{11}w_{1j}+u_{1j}$

其中，（N是总样本量），（J是水平2的解释变量的w的取值个数，假定w为分类变量）。则 $y_{ij}$ 表示在变量w的第 j 种取值的情况中的第 i 个个体的结局测量值。第1水平方程（第1个等式）中，截距 $\beta _{0j}$ 带有下标 j，表示其值随 w 的取值变化而变化；系数 $\beta _{1j}$ 带有下标 j，表示变量 $z_{1ij}$ 对 $y_{ij}$ 的效应随 w 的取值变化而变化；而系数 $\alpha _1$ 不带有下标 j，表示变量 $x_{1ij}$ 对 $y_{ij}$ 的效应不随 w 的取值变化而变化。在两个第2水平方程（第2、3个等式）中，第1水平的回归系数变成了因变量。关于其他参数如e和u的规则，此处跳过（感兴趣的可查阅统计书《高级医学统计学》）。

从概念上来讲，该模型的建立是从顶向下的，先进行第1水平的参数计算（通过枚举 j 来获得 j 组回归系数 $\beta _{0j}$ 和 $\beta _{1j}$ ）；然后使用估计的回归系数进行第2水平的参数计算，生成多个第2水平的方程。这种计算步骤是传统的计算方法，现在的计算其实是同步进行的。

如果将两个第2水平的方程代入到第1水平的方程中，可以得到：

$y_{ij}=(\gamma _{00}+\gamma _{01}w_{1j}+\alpha _1x_{1j}+\gamma _{10}z_{1ij}+\gamma _{11}w_{1j}z_{1ij})+(u_{0j}+u_{1j}z_{1ij}+e_{ij})$

这是一个组合模型，该式右边分为两部分，第一个括号部分是各个解释变量及其交互项产生的效应，第二个括号部分是复合残差结构。第一部分便可对应为LMM中提到的固定效应部分，第二部分可对应为LMM中提到的随机效应部分（包括纯粹残差项）。

更一般地，两水平模型可表述为：

$\\ y_{ij}=\beta _{0j}+ \sum_{p=1}^P\alpha _px_{pij}+\sum_{q=1}^Q\beta _{qj}x_{qij}+e_{ij} \\ \beta _{0j}=\gamma _{00}+\sum_{m=1}^M\gamma _{0m}w_{mj}+u_{0j} \\ ... \\ \beta _{Qj}=\gamma _{Q0}+\sum_{m=1}^M\gamma _{Qm}w_{mj}+u_{Qj}$

将Q个第2水平的方程代入到第1水平的方程中，可以得到：

$\\ y_{ij}=(\gamma _{00}+\sum_{m=1}^M\gamma _{0m}w_{mj}+\sum_{p=1}^P\alpha _px_{pij}+\sum_{q=1}^Q\gamma _qz_{qij}+\sum_{q=1}^Q\sum_{m=1}^M\gamma _{qm}w_{mj}z_{qij}) \\+(u_{0j}+\sum_{q=1}^Qz_{qij}u_{qj}+e_{ij})$

该组合模型由两部分组成：固定效应部分（第一个括号中）和随机效应部分（第二个括号中）。

MLM的参数估计十分复杂，模型构建的步骤也比较繁琐，此处都不进行讲解。

高斯混合模型 GMM

高斯混合模型GMM（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况（或者是同一类分布但参数不一样，或者是不同类型的分布，比如正态分布和伯努利分布）。

设有随机变量X，则混合高斯模型可以用下式表示：

称为混合模型中的第k 个分量（component）。比如有两个聚类，可以用两个二维高斯分布来表示，那么分量数K=2 $\pi_k$ 是混合系数（mixture coefficient），且满足：

$\sum _{k=1}^K\pi_k=1, 0\leq \pi_k\leq 1$

实际上，可以认为 $\pi_k$ 就是每个分量的权重。

GMM常用于聚类。如果要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这 K 个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数 $\pi_k$ ，选中 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为已知的问题。

可以用EM算法估计GMM参数。

此处介绍较为简略，有一篇博客讲得比较好，值得参考：高斯混合模型（GMM）及其EM算法的理解

另外，还有个概念叫广义矩方法，也简称GMM，其与GEE密切相关，可参考：广义矩方法(GMM)和广义估计方程(GEE)到底有什么区别

广义估计方程 GEE

广义估计方程（generalized estimating equation, GEE）用于估计广义线性模型的参数（其中线性模型的结果之间可能存在未知的相关性）。于1986年由Liang和Zeger首次提出，是在广义线性模型和重复测量数据中，运用准似然估计方法估计参数的一种用于分析相关性数据的回归模型。

详细介绍请参考这篇博客：广义估计方程GEE

广义线性混合模型 GLMM

广义线性混合模型GLMM，可以看做是线性混合模型LMM的扩展形式，使得因变量不再要求满足正态分布；也可以看作是GLM的扩展形式，使得可以同时包含固定效应和随机效应。

回顾一下，LMM模型的一般形式为：

$y=X\beta+Z\gamma +\epsilon$

是N*1的向量，表示观测值；X是N*p的矩阵，表示固定效应自变量； $\beta$ 是p*1的向量，表示固定效应参数向量；Z是N*q的矩阵，表示随机效应变量； $\gamma$ 是q*1的向量（ $\gamma$ 在某些版本中也写成），表示随机因子的效应值； $\epsilon$ 是N*1的向量，表示残差（随机误差）。

GLMM在此基础上做了一些改动。令 linear predictor, $\eta$ , 表示固定效应和随机效应的组合（随机误差不包含在内），即：

$\eta =X\beta+Z\gamma$

令g(⋅)表示link function，用来连接 linear predictor 和 label，h(⋅)为g(⋅)的反函数，即response function。则有：

$g(E(y))=\eta , E(y)=H(\eta )=u$ ，因此： $y=h(\eta )+\epsilon$

此处的 link function 和 response function 的示例，请直接参考GLM中的介绍（但此处会额外接触到几个概念：带随机效应的Logistic回归中的 probability density function 或简称PDF，和带随机效应的Poisson回归中的probability mass function 或简称PMF）。结果的解读，和GLM中的解读类似，细微的差别仅在于随机效应部分的解读。

借鉴知乎上的一个理解：

举个例子，我们认为疗效可能与服药时间相关，但是这个相关并不是简简单单的疗效随着服药时间的变化而改变。更可能的是疗效的随机波动的程度与服药时间有关。比如说，在早上10：00的时候，所有人基本上都处于半饱状态，此时吃药，相同剂量药物效果都差不多。但在中午的时候，有的人还没吃饭，有的人吃过饭了，有的人喝了酒，结果酒精和药物起了反应，有的人喝了醋，醋又和药物起了另一种反应。显然，中午吃药会导致药物疗效的随机误差非常大。这种疗效的随机误差（而非疗效本身）随着时间的变化而变化，并呈一定分布的情况，必须用广义线性混合模型了。对于固定效应来说，参数的含义是，自变量每变化一个单位，应变量平均变化多少。而对于随机效应而言，参数是服从正态分布的一个随机变量，也就是说对于两个不同的自变量的值，对应变量的影响不一定是相同的。

一篇文献以一个案例对以上几种模型进行了比较，值得一读：GEE、GLMM和MLM分析卫生重复测量资料的效果比较

参考资料

万崇华等. 高级医学统计学. 科学出版社.

Wiki: Generalized_linear_model

Wiki: Mixed_model

Wiki: Generalized_linear_mixed_model

Introduction to generalized linear mixed models

GLM(广义线性模型) 与 LR(逻辑回归) 详解

广义线性模型GLM

广义估计方程GEE

高斯混合模型（GMM）及其EM算法的理解

混合模型初探

周婷,兰蓝,邱建青,杜春霖,李晓松,张韬.GEE、GLMM和MLM分析卫生重复测量资料的效果比较[J].现代预防医学,2017,44(16):2881-2885+2899

机器学习数学基础：29.t检验 @心都机器学习人工智能
一、t检验的定义与核心思想（一）定义t检验（Student’st-test）是一种在统计学领域中广泛应用的基于t分布的统计推断方法。其主要用途在于判断样本均值与总体均值之间，或者两个独立样本的均值之间、配对样本的均值之间是否存在显著差异。例如，在教育研究中，可以通过t检验判断某个班级学生的平均成绩与全校学生的平均成绩是否有显著差异；在医学实验里，可用于比较实验组和对照组的患者某项生理指标的均值是否
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
支持向量机 SVM 简要介绍 _夜空的繁星_ 机器学习 svm 支持向量机拉格朗日对偶机器学习
那些我从来没有理解过的概念（1）下面是我在学习过程中遇到的对我很难理解的概念和我抄下来的笔记主要资料来源：《统计学习方法》，维基百科拉格朗日对偶问题是什么假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数，考虑以下最优化问题：$$\min_{x\inR^n}{f(x)}\c_i(x)\leq0,i=1,2,\dots,k\h_j(x)=0,j=1,2,\dots,l$$是一个凸优化问
【练习】PAT 乙 1061 判断题柠石榴 PAT 题解输入输出算法 c++
题目判断题的评判很简单，本题就要求你写个简单的程序帮助老师判题并统计学生们判断题的得分。输入格式：输入在第一行给出两个不超过100的正整数N和M，分别是学生人数和判断题数量。第二行给出M个不超过5的正整数，是每道题的满分值。第三行给出每道题对应的正确答案，0代表“非”，1代表“是”。随后N行，每行给出一个学生的解答。数字间均以空格分隔。输出格式：按照输入的顺序输出每个学生的得分，每个分数占一行。输
总体方差和样本方差然后就去远行吧疑难杂症
在统计描述中，方差用来计算每一个变量*（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式：σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差，XXX为变量，μ\muμ为总体均值，NNN为总体例数。在实
利用R语言irr包计算ICC值（组内相关系数） mlhylzqwxli r语言
ICC值是一个较为陌生的概念，在统计学中应用较多，引用百度百科的介绍：组内相关系数(ICC)是衡量和评价观察者间信度(inter-observerreliability)和复测信度(test-retestreliability)的信度系数(reliabilitycoefficient)指标之一。它最先由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度，故其值介
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
016.3月夏令营：数理类力学AI有限元保研
016.3月夏令营：数理类：中国人民大学统计学院：http://www.eeban.com/forum.php?mod=viewthread&tid=386109北京大学化学学院第一轮：http://www.eeban.com/forum.php?m...6026&extra=page%3D1香港大学化学系夏令营：http://www.eeban.com/forum.php?mod=viewthr
多独立样本秩检验：Kruskal-Wallis检验木子算法非参数统计非参数检验概率论统计
多独立样本秩检验：Kruskal-Wallis检验的理论与实践一、引言在统计学中，当数据不满足正态分布或方差齐性假设时，传统的参数检验（如方差分析ANOVA）可能失效。此时，非参数检验方法（如秩检验）成为更可靠的选择。本文将详细介绍多独立样本秩检验的核心方法——Kruskal-Wallis检验，包括其理论基础、公式推导、案例分析及Python实现。二、理论基础1.问题定义假设我们有kkk个独立样本
r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记？蒲牢森 r语言手动算两个C指数p值
作者：一只想飞的喵审稿：童蒙编辑：angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值，且添加显著性标记。通常情况根据显著性p值的数值大小，分为四类：(1)0.01≤p<0.05，*(2)0.001≤p<0.01，**(3)0.0001≤p<0.001，***(4)p<0.0001,****接下来会讲述三种添加显著性标记的方法。方法1-手动添加1：创建数据
R语言广义加型模型（GAM）的运用例子及实现教程 Mrrunsen R语言大学作业 r语言开发语言
文章目录步骤1：加载所需包和数据步骤2：数据预处理步骤3：拟合广义加型模型步骤4：查看模型摘要和诊断模型摘要系数估计平滑项模型质量步骤5：预测和可视化结论广义加型模型（GeneralizedAdditiveModel，简称GAM）是一种灵活的非线性建模方法，在统计学和机器学习领域被广泛应用。GAM可以用于拟合非线性关系，适用于多个预测变量之间的复杂关系，并且可以处理连续和分类变量。本教程将向您展示
python 统计库_《统计学习方法》 Python 库 weixin_39756540 python 统计库
新建GitHub仓库仓库名为slmethod,统计学习方法(StatisticalLearningMethod)的简写Public公开仓库勾选InitializethisrepositorywithaREADME.gitignore选择Python添加MITLicensenew下载代码到本地，使用ssh协议。gitclonegit@github.com:iOSDevLog/slmethod.git
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
规控算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
规控算法工程师技术图谱与学习路径规控算法工程师（规划与控制算法工程师）是自动驾驶领域的核心岗位之一，涉及路径规划、行为决策、运动控制等多个技术模块。以下为技术图谱与学习路径的整合，结合行业需求和技术发展趋势。一、技术图谱核心模块数学基础线性代数：矩阵运算、向量空间、特征值分解（用于控制系统建模与优化）。微积分：梯度下降、泰勒展开、动态系统建模（支持控制算法推导）。概率论与统计学：贝叶斯理论、马尔可
推荐算法工程师的技术图谱和学习路径执于代码开发者职业加速服务推荐算法学习算法
推荐算法工程师的技术图谱和学习路径可以从多个维度进行概述，可以总结如下：一、技术图谱推荐算法工程师需要掌握的技术栈主要分为以下几个方面：数学基础：微积分、线性代数、概率论与统计学是推荐算法的基础，用于理解模型的数学原理和优化算法。高等数学、最优化理论、几何和图论等知识对于复杂模型的设计和优化至关重要。编程与数据结构：熟练掌握Python、Java等编程语言，具备良好的编程习惯和代码优化能力。掌握数
聚类分析tensorflow实例_新手必看的机器学习算法集锦（聚类篇）道酝欣赏
继上一篇《机器学习算法之分类》中大致梳理了一遍在机器学习中常用的分类算法，类似的，这一姊妹篇中将会梳理一遍机器学习中的聚类算法，最后也会拓展一些其他无监督学习的方法供了解学习。1.机器学习机器学习是近20多年兴起的一门多领域交叉学科，它涉及到概率论、统计学、计算机科学以及软件工程等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类能从数据中自动分析获得规律
数据挖掘与数据分析的区别是什么中琛源科技
数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。从分析的目的来看，数据分析一般是对历史数据进行统计学上的一些分析，数据挖掘更侧重于机器对未来的预测，一般应用于分类、聚类、推荐、关联规则等。从分析的过程来看，数据分析更侧重于统计学上面的一些方法，经过人的推理演译得到结论；数据挖掘更侧
线性秩检验木子算法非参数统计数学建模概率论
线性秩检验一、引言在统计学的广袤领域中，参数检验通常基于数据服从特定分布（如正态分布）的假设。然而，在实际场景里，数据往往并不满足这些严格假设，此时非参数检验方法便展现出独特优势。线性秩检验作为一种强大的非参数检验手段，能够在不依赖数据分布的前提下，对数据进行深入分析，探寻其中隐藏的规律与差异。本文将全方位深入剖析线性秩检验，涵盖其原理、公式推导以及实际案例应用，助力读者全面掌握这一重要的统计方法
【量化金融自学笔记】--开篇.基本术语及学习路径建议花花 Show Python 量化金融自学笔记金融笔记学习
在当今这个信息爆炸的时代，金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被更加科学、精准的量化技术所取代。量化金融，这个曾经高不可攀的领域，如今正逐渐走进大众的视野。它将数学、统计学、计算机科学与金融学深度融合，为我们提供了一种全新的视角去理解和探索金融市场的奥秘。作为一名对量化金融充满热情的自学者，我深知在这个领域中，每一步都充满了挑战与机遇。从最初对复杂数学公式的困惑，到逐渐掌握编
【机器学习】平均绝对误差（MAE：Mean Absolute Error） IT古董机器学习人工智能机器学习人工智能 python
平均绝对误差(MeanAbsoluteError,MAE)是一种衡量预测值与实际值之间平均差异的统计指标。它在机器学习、统计学等领域中广泛应用，用于评估模型的预测精度。与均方误差(MSE)或均方误差根(RMSE)不同，MAE使用误差的绝对值，因此它在处理异常值时更加稳定。1.MAE的定义和公式给定预测值和真实值，MAE的公式为：其中：n是样本总数。是模型的预测值。是对应的真实值。MAE表示了预测值
AI探索笔记：线性回归安意诚Matrix 机器学习笔记人工智能笔记线性回归
前言写这篇博客，主要是自己来练练手。网络上教程已经是数不胜数，也都讲得非常清楚了。但自己不动手，知识和能力还是别人的。下面分别用传统方法（sklearn）和神经网络（pytorch）来解决线性回归问题。内容什么是线性回归线性回归（LinearRegression）是统计学和机器学习中最基础且广泛使用的预测模型，用于建立**自变量（输入特征）与因变量（输出目标）**之间的线性关系模型。其核心思想是通
PCA主成分分析降维算法及其可视化（附完整版代码） Jason_Orton 算法机器学习数据挖掘人工智能 matlab
一.PCA的介绍PCA（PrincipalComponentAnalysis）是一种数据降维技术，旨在将多维指标转换为少数几个综合指标。在统计学中，PCA是简化数据集的一种方法，通过线性变换将数据映射到新的坐标系中。在新的坐标系中，第一主成分捕获数据投影的最大方差，第二主成分捕获第二大方差，依此类推。主成分分析常用于减少数据集的维度，同时保留对方差贡献最大的特征。这是通过保留低阶主成分、忽略高阶主
JS宏进阶：浅谈曲线回归 jackispy JS宏进阶回归数据挖掘人工智能 javascript
曲线回归是一种统计学方法，用于研究两个或多个变量之间的非线性关系，并找到最能拟合数据点的曲线函数形式。与线性回归不同，曲线回归适用于描述那些不是直线性的变量关系。通过曲线回归，可以建立变量之间的非线性数学模型，用于预测和解释各种实际现象。一、基本概念定义：曲线回归是指对于非线性关系的变量进行回归分析的方法。曲线回归方程一般是以自变量的多项式或其他非线性函数形式表达因变量。目的：曲线回归的主要目的是
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
深入理解SAP HANA Cloud Vector Engine与自查询 VYSAHF java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
数据挖掘中特征发现与特征提取的数学原理调皮的芋头数据挖掘人工智能 AIGC 计算机视觉
好的，我将深入研究数据挖掘中特征发现与特征提取的数学原理，涵盖统计学基础、特征工程的数学方法、以及在机器学习和深度学习中的应用。我会整理相关数学公式和理论，包括主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、信息增益、互信息、方差分析等统计方法，并结合金融量化交易的实际应用，确保内容既有理论深度，又能落地实践。完成后，我会通知您！1.统计学基础：描述性统计、方差分析、相关性与
大模型学习路线与资源推荐数字化转型2025 AI投资人工智能
以下是基于多篇参考资料整理的大模型学习路线，涵盖从基础到进阶的完整学习路径，帮助您系统掌握大模型核心技术并应用于实际场景：一、基础阶段：构建核心知识体系编程与数学基础编程语言：优先学习Python，掌握其语法、数据结构及常用库（如NumPy、Pandas、PyTorch）37。数学基础：线性代数、概率论与统计学、微积分是理解模型原理的基石，需重点掌握矩阵运算、概率分布等概念39。深度学习入门神经网
统计学基础知识点刷题（task2） sm376624607 统计学
参考视频：可汗学院《统计学》参考书籍：《深入浅出统计学》文章目录概念1:中心极限定理概念2:置信区间概念3:伯努利分布概念4:误差范围概念5:小样本容量置信区间概念1:中心极限定理核心内容：随着抽样次数趋于∞\infty∞,样本均值的抽样分布趋近于正态分布，且该正态分布的均值为总体均值。X‾服从N(μ,σ/n)\overline{X}服从N(\mu,\sigma/\sqrt{n})X服从N(μ,σ
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多