拓端研究室TRL

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据...

全文链接:http://tecdat.cn/?p=22813

本教程为读者提供了使用频率学派的广义线性模型（GLM）的基本介绍。具体来说，本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用，以及模型评估的方法（点击文末“阅读原文”获取完整代码数据）。

本教程使用教育数据例子进行模型的应用。此外，本教程还简要演示了用R对GLM模型进行的多层次扩展。最后，还讨论了GLM框架中的更多分布和链接函数。

相关视频

本教程包含以下结构。
1. 准备工作。
2. 介绍GLM。
3. 加载教育数据。
4. 数据准备。
5. 二元（伯努利）Logistic回归。
6. 二项式 Logistic 回归。
7. 多层次Logistic回归。
8. 其他族和链接函数。

本教程介绍了：
- 假设检验和统计推断的基本知识。
- 回归的基本知识。
- R语言编码的基本知识。
- 进行绘图和数据处理的基本知识。

广义线性模型（GLM）简介

对于y是连续值得情况，我们可以用这种方式处理，但当y是离散值我们用普通线性模型就不合适了，这时我们引用另外一种模型 --- Generalised Linear Models 广义线性模型。

为了获取GLM模型，我们列出3个条件：

，也就是y|x为指数族分布，指数族分布形式：

2. 如果我们判断y的假设为，则。

3. 自然参数和输入x呈线性关系：

这3个条件的来由我们不讨论，我们只知道做这样的假设是基于“设计”的选择，而非必然。

我们以泊松回归为例, y服从泊松分布，化为指数族形式，我们可以得到。所以

之后即为最大似然法的过程。

教育数据

本教程中使用的数据是教育数据。

该数据来源于全国性的小学教育调查。数据中的每一行都是指一个学生。结果变量留级是一个二分变量，表示一个学生在小学教育期间是否留过级。学校变量表示一个学生所在的学校。个人层面的预测因素包括。性别（0=女性，1=男性）和学前教育（受过学前教育，0=没有，1=有）。学校层面是学校平均SES（社会经济地位）得分。

本教程利用教育数据试图回答的主要研究问题是。

忽略数据的结构，性别和学前教育对学生是否留级的影响是什么？
忽略数据的结构，学校平均SES对学生留级比例的影响是什么？
考虑到数据的结构，性别、学前教育和学校平均SES对学生是否留级有什么影响？
这三个问题分别用以下这些模型来回答：二元逻辑回归；二项逻辑回归；多层次二元逻辑回归。

数据准备

加载必要的软件包

# 如果你还没有安装这些包，请使用install.packages("package_name")命令。
library(lme4) # 用于多层次模型
library(tidyverse) # 用于数据处理和绘图

导入数据

head(Edu)

数据处理

mutate(学校 = factor(学校),
         性别 = if_else(性别 == 0, "girl", "boy"),
         性别 = factor(性别, levels = c("girl", "boy")),
         受过学前教育 = if_else(受过学前教育 == 0, "no", "yes"),
         受过学前教育 = factor(受过学前教育, levels = c("no", "yes")))

检查缺失的数据

summarise_each((~sum(is.na(.))

数据中，经济地位变量有1066个观测值缺失。对缺失数据的处理本身就是一个复杂的话题。为了方便起见，我们在本教程中简单地将数据缺失的案例删除。

二元逻辑回归

探索数据：按性别和学前教育分类的留级数量

group_by(性别) %>%
  summarise(是否留过级 = sum(是否留过级))

看来，留级的学生人数在男女之间有很大的不同，更多的男学生留级。更多没有接受过学前教育的学生留级。这一观察结果表明，性别和学前教育可能对留级有预测作用。

构建二元逻辑回归模型

R默认安装了基础包，其中包括运行GLM的glm函数。glm的参数与lm的参数相似：公式和数据。然而，glm需要一个额外的参数：family，它指定了结果变量的假设分布；在family中我们还需要指定链接函数。family的默认值是gaussian(link = "identity")，这导致了一个线性模型，相当于由lm指定的模型。在二元逻辑回归的情况下，glm要求我们指定一个带有logit链接的二项分布，即family = binomial(link = "logit") 。

glm(formula ,
                    family = binomial(link = "logit"))

解释

从上面的总结输出中，我们可以看到，性别对学生留级的概率有正向和显著的预测，而学前教育则有负向和显著的预测。具体来说，与女孩相比，男孩更有可能留级。以前上过学的学生不太可能导致留级。

为了解释参数估计值，我们需要对估计值进行指数化处理。

请注意，参数估计的解释与几率而不是概率有关。赔率的定义是。P（事件发生）/P（事件未发生）。在本分析中，假设其他一切保持不变，与女孩相比，男孩增加了54%的留级几率；与没有学前教育相比，假设其他一切保持不变，拥有学前教育降低了（1-0.54）%=46%的留级几率。

参数效应的可视化

为了使参数效应的解释更加容易，我们可以对参数效应可视化。

plot(Effects)

请注意，在这两张图中，Y刻度指的是留级的概率，而不是几率。概率比几率更容易解释。每个变量的概率分数是通过假设模型中的其他变量是常数并采取其平均值来计算的。正如我们所看到的，假设一个学生有平均的学前教育，作为一个男孩比作为一个女孩有更高的留级概率（~0.16）~0.11）。同样，假设一个学生有一个平均的性别，有学前教育的学生比没有学前教育的学生留级的概率低（~0.11）（~0.18）。请注意，在这两幅图中，还包括了估计值的置信区间，以使我们对估计值的不确定性有一些了解。

请注意，平均学前教育和性别的概念可能听起来很奇怪，因为它们是分类变量（即因素）。如果你对假设一个平均因素的想法感到奇怪，你可以指定你的预期因素水平作为参考点。

predictors = list( values=c(性别boy=0, 受过学前教育yes = 0))

设置性别boy = 0意味着在学前教育效应图中，性别变量的参考水平被设置为0；学前教育yes = 0导致0成为性别效应图中学前教育变量的参考水平。

因此，正如上面两幅图所示，假设学生没有接受过学前教育，作为男孩的留级概率（~0.20）比作为女孩的留级概率（~0.14）要高；假设学生是女性，有学前教育的留级概率（~0.09）比没有学前教育的留级概率（~0.15）要低。

点击标题查阅往期内容

多水平模型、分层线性模型HLM、混合效应模型研究教师的受欢迎程度

左右滑动查看更多

模型评估:拟合度

评价逻辑回归模型的拟合度有不同的方法。

似然比检验

如果一个逻辑回归模型与预测因子较少的模型相比，显示出拟合度的提高，则该模型对数据有较好的拟合度。这是用似然比检验进行的，它将完整模型下数据的似然性与较少预测因素的模型下数据的似然性进行比较。从一个模型中删除预测变量几乎总是会使模型的拟合度降低（即模型的对数似然率较低），但测试观察到的模型拟合度差异是否具有统计学意义是很有用的。

#指定一个只有`性别'变量的模型
#使用\`anova()\`函数来运行似然比测试
anova(ModelTest, Model, test ="Chisq")

我们可以看到，同时包含性别和学前教育的预测因子的模型比只包含性别变量的模型对数据的拟合效果要好得多。请注意，这种方法也可以用来确定是否有必要包括一个或一组变量。

AIC

Akaike信息准则（AIC）是另一个模型选择的衡量标准。与似然比检验不同，AIC的计算不仅要考虑模型的拟合度，还要考虑模型的简单性。通过这种方式，AIC处理了模型的拟合度和复杂性之间的权衡，因此，不鼓励过度拟合。较小的AIC是首选。

在AIC值较小的情况下，同时具有性别和学前教育预测因子的模型优于只具有性别预测因子的模型。

正确分类率

正确分类率是另一个有用的衡量标准，可以看出模型对数据的合适程度。

#使用\`predict()\`函数，从拟合的模型中计算出原始数据中学生的预测概率
Pred <- if_else(Pred > 0.5, 1, 0)
ConfusionMatrix <- table(Pred, TRUE)
#正确的分类率

我们可以看到，该模型对所有观测值的85.8%进行了正确分类。然而，仔细观察可以发现，模型预测所有的观察值都属于 "0 "类，也就是说，所有的学生都被预测为不留级。考虑到留级变量的多数类别是0（不），该模型在分类上的表现并不比简单地将所有观测值分配到多数类别0（不）更好。

AUC（曲线下面积）

使用正确分类率的一个替代方法是曲线下面积（AUC）测量。AUC测量区分度，即测试对有目标反应和无目标反应的人进行正确分类的能力。在目前的数据中，目标变量是留级。我们从 "留级 "组和 "不留级 "组中随机抽取一名学生。预测概率较高的学生应该是 "留级 "组中的学生。AUC是随机抽出的对子的百分比。这个程序将AUC与正确分类率区分开来，因为AUC不依赖于结果变量中类的比例的变化。0.50的值意味着该模型的分类效果不比随机好。一个好的模型应该有一个远远高于0.50的AUC分数（最好高于0.80）。

# 计算用该模型预测类别的AUC

AUC <- performance(Pred, measure = "auc")
AUC <- AUC@y.values\[\[1\]\]
AUC

AUC分数为0.60，该模型的判别能力不强。

二项式 Logistic 回归

正如开头提到的，逻辑回归也可以用来为计数或比例数据建模。二项逻辑回归假设结果变量来自伯努利分布（这是二项分布的一个特例），其中试验次数n为1，因此结果变量只能是1或0。相反，二项逻辑回归假设目标事件的数量遵循二项分布，试验次数n，概率q。这样一来，二项逻辑回归允许结果变量取任何非负整数值，因此能够处理计数数据。

教育数据记录了集中在学校内的个别学生的信息。通过汇总各学校留级的学生人数，我们得到一个新的数据集，其中每一行代表一所学校，并有关于该学校留级学生的比例信息。学校平均社会经济地位（平均SES分数）也是在学校层面上的；因此，它可以用来预测在某个学校留级的学生的比例或数量。

转换数据

在这个新的数据集中，留级指的是留级的学生人数；TOTAL指的是某所学校的学生总数。

探索数据

ggplot(aes(x , y)) +
  geom_smooth(method = "lm")

我们可以看到，留级的学生比例与学校平均社会经济地位的反对数呈负相关。请注意，我们将变量学校平均社会经济地位建模为其反对数，因为在二项式回归模型中，我们假设线性预测因子的反对数与结果（即事件比例）之间存在线性关系，而不是预测因子本身与结果之间存在线性关系。

拟合二项式Logistic回归模型

为了拟合二项式逻辑回归模型，我们也使用glm函数。唯一的区别是在公式中对结果变量的说明。我们需要指定目标事件的数量（留级）和非事件的数量（TOTAL-留级），并将它们包在cbind()中。

glm(cbind(是否留过级, TOTAL-是否留过级) ~ 学校平均社会经济地位,
                  family = binomial(logit))

解释

二项式回归模型的参数解释与二项式逻辑回归模型相同。从上面的模型总结中我们知道，一所学校的平均SES分数与该校学生留级的几率呈负相关。为了提高可解释性，我们再次使用summ()函数来计算学校平均社会经济地位的指数化系数估计。由于学校平均社会经济地位是一个连续的变量，我们可以将指数化的学校平均社会经济地位估计值标准化（通过将原始估计值与变量的SD相乘，然后将所得数字指数化）。

#注意，为了对二项回归模型使用summ()函数，我们需要将结果变量作为对象。
是否留过级 <- (filter(edu, !is.na(学校平均社会经济地位)), 是否留过级)

我们可以看到，随着学校平均社会经济地位的SD增加，学生留级的几率降低了1 - 85% = 15%。

我们可以直观地看到学校平均社会经济地位的效果。

plot(allEffects)

上面的图表显示了学校平均社会经济地位对学生留级概率的预期影响。在其他因素不变的情况下，随着学校平均社会经济地位的增加，一个学生留级的概率会降低（从0.19到0.10）。蓝色阴影区域表示每个学校平均社会经济地位值的预测值的95%置信区间。

多层次二元逻辑回归

前面介绍的二元逻辑回归模型仅限于对学生层面的预测因素的影响进行建模；二元逻辑回归仅限于对学校层面的预测因素的影响进行建模。为了同时纳入学生层面和学校层面的预测因素，我们可以使用多层次模型，特别是多层次二元逻辑回归。

除了上述动机外，还有更多使用多层次模型的理由。例如，由于数据是在学校内分类的，来自同一学校的学生很可能比来自其他学校的学生更相似。正因为如此，在一所学校，一个学生留级的概率可能很高，而在另一所学校，则很低。此外，即使是结果（即留级）和预测变量（如性别、学前教育、学校平均社会经济地位）之间的关系，在不同的学校也可能不同。还要注意的是，学校平均社会经济地位变量中存在缺失值。使用多层次模型可以较好地解决这些问题。

请看下面的图作为例子。该图显示了各学校留级学生的比例。我们可以看到不同学校之间的巨大差异。因此，我们可能需要多层次模型。

group_by(学校) %>%
  summarise(PROP = sum(是否留过级)/n()) %>%
  plot()

我们还可以通过学校来绘制性别和留级之间的关系，以了解性别和留级之间的关系是否因学校而异。

mutate(性别 = if_else(性别 == "boy", 1, 0)) %>%
  ggplot(aes(x = 性别, y = 是否留过级, color = as.factor(学校))) +

在上面的图中，不同的颜色代表不同的学校。我们可以看到，不同学校的性别和留级之间的关系似乎有很大不同。

我们可以为学前教育和留级做同样的图。

mutate(性别 = if_else(性别 == "girl", 0, 1),
         受过学前教育 = if_else(受过学前教育 == "yes", 1, 0)) %>%
  group_by(学校) %>%
  mutate(性别 = 性别 - mean(性别),

学前教育和留级之间的关系在不同的学校也显得相当不同。然而，我们也可以看到，大多数的关系都呈下降趋势，从0（以前没有上过学）到1（以前上过学），表明学前教育和留级之间的关系为负。

由于上述观察结果，我们可以得出结论，在目前的数据中需要建立多层次的模型，不仅要有随机截距（学校），还可能要有性别和学前教育的随机斜率。

中心化变量

在拟合多层次模型之前，有必要采用适当的中心化方法（即均值中心化）对预测变量进行中心化，因为中心化方法对模型估计的解释很重要。根据Enders和Tofighi（2007）的建议，我们应该对第一层次的预测因子性别和学前教育使用中心化，对第二层次的预测因子学校平均社会经济地位使用均值中心化。

受过学前教育 = if_else(受过学前教育 == "yes", 1, 0)) %>%
  group_by(学校) %>%
  mutate(性别 = 性别 - mean(性别),
         受过学前教育 = 受过学前教育 - mean(受过学前教育)) %>%
  ungroup() %>%

只有截距模型

为了指定一个多层次模型，我们使用lme4软件包。随机斜率项和聚类项应该用|分隔。注意，我们使用了一个额外的参数指定比默认值（10000）更大的最大迭代次数。因为一个多层次模型可能需要大量的迭代来收敛。

我们首先指定一个纯截距模型，以评估数据聚类结构的影响。

glmer(是否留过级 ~ 1 + (1|学校),
                             optCtrl = list(maxfun=2e5))

下面我们计算一下纯截距模型的ICC（类内相关）。

0.33的ICC意味着结果变量的33%的变化可以被数据的聚类结构所解释。这提供了证据表明，与非多层次模型相比，多层次模型可能会对模型的估计产生影响。因此，多层次模型的使用是必要的，也是有保证的。

完整模型

按部就班地建立一个多层次模型是很好的做法。然而，由于本文的重点不是多层次模型，我们直接从纯截距模型到我们最终感兴趣的全模型。在完整模型中，我们不仅包括性别、学前教育和学校平均社会经济地位的固定效应项和一个随机截距项，还包括性别和学前教育的随机斜率项。请注意，我们指定 family = binomial(link = "logit")，因为这个模型本质上是一个二元逻辑回归模型。

glmer(是否留过级 ~ 性别 + 受过学前教育 + 学校平均社会经济地位 + (1 + 性别 + 受过学前教育|学校)

结果（与固定效应有关）与之前二元逻辑回归和二项逻辑回归模型的结果相似。在学生层面上，性别对学生留级的几率有显著的正向影响，而学前教育有显著的负向影响。在学校层面上，学校地位对结果变量有显著的负向影响。我们也来看看随机效应项的方差。

同样，我们可以使用summ()函数来检索指数化的系数估计值，便于解释。

sum(Model_Full)

我们还可以显示参数估计的效果。请注意，由于第一级分类变量（性别和学前教育）是中心化的，因此在模型中它们被当作连续变量，在下面的效果图中也是如此。

plot((Model)

除了固定效应项之外，我们也来看看随机效应项。从之前的ICC值来看，我们知道有必要包括一个随机截距。但是，包括性别和学前教育的随机斜率的必要性就不太清楚了。为了弄清楚这一点，我们可以用似然比检验和AIC来判断随机斜率的加入是否能改善模型的拟合。

glmer(是否留过级 ~ 性别 + 受过学前教育 + 学校平均社会经济地位 + (1 + 受过学前教育|学校),

#拟合一个不完整的模型，剔除`受过学前教育'的随机斜率项
glmer(是否留过级 ~ 性别 + 受过学前教育 + 学校平均社会经济地位 + (1 + 性别|学校),

似然比检验

比较完整的模型和排除了`性别'的模型

将完整的模型与排除了 "受过学前教育 "的模型进行比较

从所有不显著的似然比检验结果（Pr（>Chisq）>0.05），我们可以得出结论，增加任何随机斜率项对模型拟合都没有明显的改善。

AIC

AIC #full模型
AIC#＃没有性别的模型
AIC #＃没有受过学前教育的模型
AIC#＃没有随机斜率的模型

从AIC的结果来看，我们发现包括随机斜率项要么没有大幅提高AIC（用较低的AIC值表示），要么导致更差的AIC（即更高）。因此，我们也得出结论，没有必要包括随机效应项。

其他族（分布）和链接函数

到目前为止，我们已经介绍了二元和二项逻辑回归，这两种回归都来自于二项家族的logit链接。然而，还有许多分布族和链接函数，我们可以在glm分析中使用。例如，为了对二元结果进行建模，我们还可以使用probit链接或log-log（cloglog）来代替logit链接。为了给计数数据建模，我们也可以使用泊松回归，它假设结果变量来自泊松分布，并使用对数作为链接函数。

参考文献

Bates, D., Maechler, M., Bolker, B., & Walker, S. (2015). _Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software, 67_(1), 1-48. doi:10.18637/jss.v067.i01

Enders, C. K., & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. _Psychological Methods, 12_(2), 121-138. doi:10.1037/1082-989X.12.2.121

本文中分析的数据分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据》。

点击标题查阅往期内容

R语言线性混合效应模型（固定效应&随机效应）和交互可视化3案例

非线性混合效应 NLME模型对抗哮喘药物茶碱动力学研究

生态学模拟对广义线性混合模型GLMM进行功率（功效、效能、效力）分析power analysis环境监测数据

有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据

如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言线性混合效应模型实战案例

R语言混合效应逻辑回归（mixed effects logistic）模型分析肺癌数据

R语言如何用潜类别混合效应模型（LCMM）分析抑郁症状

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言建立和可视化混合效应模型mixed effect model

R语言LME4混合效应模型研究教师的受欢迎程度

R语言线性混合效应模型实战案例

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题

基于R语言的lmer混合线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型

R语言分层线性模型案例

R语言用WinBUGS 软件对学术能力测验（SAT）建立分层模型

使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型

SPSS中的多层（等级）线性模型Multilevel linear models研究整容手术数据

用SPSS估计HLM多层（层次）线性模型模型

你可能感兴趣的:(数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据...)

关于使用Java语言编写打地鼠游戏倾听一世，繁花盛开 Java语言打地鼠游戏开发语言 eclipse spring
用Java语言书写打地鼠游戏关于游戏的介绍《打地鼠游戏》Java代码的实现PlayMouse.javaStartGame.javaMusicPlay.javaMusicPlayTest.java游戏所需图片运行效果结言关于游戏的介绍打地鼠游戏是一款非常受欢迎的敏捷类游戏，它的基本规则简单易懂，同时又充满了挑战性和趣味性。在游戏中，玩家通常需要在一个方形区域内，面对多个地洞，这些地洞中会不定时地冒出
深入C语言：指针与数组的经典笔试题剖析 lili-felicity C语言编程启航算法
1.sizeof和strlen的对比1.1sizeofsizeof是C语言中的一个操作符，用于计算变量或数据类型所占内存空间的大小，单位是字节。它不关心内存中存储的具体数据内容，只关注内存空间的大小。#includeintmain(){inta=10;printf("%d\n",sizeof(a));//输出：4（int类型通常占4个字节）printf("%d\n",sizeofa);//输出：4
Lab17_ Blind SQL injection with out-of-band data exfiltration 远川_Horizon web安全 sql
文章目录前言：进入实验室构造payload前言：实验室标题为：带外数据泄露的SQL盲注简介：本实验包含一个SQL盲目注入漏洞。应用程序使用跟踪Cookie进行分析，并执行包含提交的Cookie值的SQL查询。SQL查询是异步执行的，对应用程序的响应没有影响。但是，您可以触发与外部域的带外交互。该数据库包含一个名为users的表，其中的列名为username和password。您需要利用SQL盲目注
Apache Kafka 在生产环境中的管理与优化：从理论到实践 Echo_Wish 运维探秘让你快速入坑运维 apache kafka 分布式
ApacheKafka在生产环境中的管理与优化：从理论到实践在当今这个数据驱动的时代，ApacheKafka已经成为企业流处理和实时数据管道的核心工具。作为一名运维工程师，确保Kafka在生产环境中的高效运行不仅是挑战，更是体现专业能力的绝佳舞台。那么，如何管理并优化Kafka集群，提升其在复杂生产环境下的表现呢？接下来，我将通过经验总结和代码示例，带你逐步了解生产环境下Kafka的管理与优化。一
Manus：全球首款通用型 Agent 产品，智能体时代大幕开启 zhz5214 AI 人工智能 ai AI编程 AI写作
Manus，这款由Monica推出的前沿AI产品，凭借独特的创新设计与卓越性能，即将在智能领域引发一场技术变革。流客科技，作为科技领域持续探索创新的品牌，始终关注此类前沿技术突破，深信这样的创新产品将有力推动行业发展。Manus旨在应对复杂多变的任务场景。无论是深入的市场调研、高效精准的文件处理、精心规划的旅行安排，还是专业细致的数据分析，它都展现出强大实力。自主任务规划与执行：Manus能够将复
查看Linux服务器的相关配置信息听说唐僧不吃肉 Linux 服务器配置信息
一、总结1、查看cpu信息cat/etc/cpuinfo针对cpu数，来作出以下总结：#总核数=物理CPU个数X每颗物理CPU的核数#总逻辑CPU数=物理CPU个数X每颗物理CPU的核数X超线程数#1、查看物理CPU个数cat/proc/cpuinfo|grep"physicalid"|sort|uniq|wc
Mistral 发布 Mistral OCR，号称「世界上最好的 OCR 模型」自不量力的A同学 ocr
Mistral发布的MistralOCR号称“世界上最好的OCR模型”，以下是对它的详细介绍：产品概述MistralOCR是一种光学字符识别API，以图像和PDF作为输入，可从有序交错的文本和图像中提取内容，能理解文档的每个元素，包括媒体、文本、表格、公式等，可与RAG系统结合，处理多模式文档。核心优势顶尖的复杂文档理解能力：可精准识别科学论文、技术文献中的图表、公式（含LaTeX）、表格及混合排
七成月活过亿 APP 已接入人工智能自不量力的A同学人工智能
2025年3月4日，第三方数据机构QuestMobile发布的《2024中国移动互联网年度大报告》显示，截至2024年12月，月活用户过亿的APP中，有超过七成已接入AI123。相关具体情况如下2：整体背景：2024年全网月活用户已达12.57亿，一线、新一线、二线城市用户接近五成，其中一线城市用户同比增长了1.2%。用户对互联网的使用程度加深，整体月人均使用时长达到171.7小时，短视频、即时通
python机试1：读取和输出数据大多_C python 华为od 开发语言
读取和输出数据在LeetCode和机试中也是很重要的基础。你需要掌握文件读取、输入处理、输出优化，才能应对不同类型的题目和考试环境。以下是详细的知识点：1.标准输入与输出✅Python标准输入input()机试中，很多题目要求从标准输入stdin读取数据，通常使用：n=int(input())#读取一个整数s=input().strip()#读取一行字符串arr=list(map(int,inpu
dataframe数据常用python操作 shlay 统计分析软件 python 信息可视化数据分析
dataframe数据常用python操作dataframe数据常用知识点1.创建dataframe1.1使用字典创建DataFrame：1.2使用列表创建DataFrame：1.3使用numpy数组创建DataFrame：1.4从TXT文件中创建DataFrame：1.5从CSV文件中创建DataFrame：1.6从Excel文件中创建DataFrame：2.dataframe数据保存3.dat
0基础学python第四天 RUIOU_ python 开发语言
1.for循环：（1）for循环格式：for变量名in可迭代对象：对每个变量做的操作如：可迭代对象为列表，就是对列表中的每个数据操作，字典就是对每个字典中的键或值操作。字典中有几个方法：字典名.keys()——返回所有键；字典名.values()——返回所有值，字典名.items——返回所有键值对。若for后有两个对象且可迭代对象为字典时，第一个对象对应键，第二个对象对应值（2）range：ran
doris ：SAP HANA 向阳1218 大数据 doris
DorisJDBCCatalog支持通过标准JDBC接口连接OceanBase数据库。本文档介绍如何配置OceanBase数据库连接。使用须知要连接到OceanBase数据库，您需要OceanBase3.1.0或更高版本OceanBase数据库的JDBC驱动程序，您可以从Maven仓库下载最新或指定版本的OceanBaseJDBC驱动程序。推荐使用OceanBaseConnector/J2.4.8
上传文件到对象存储是选择前端还是后端 nangonghen linux 对象存储
对于云上对象存储的上传方式选择（前端直传或后端代理上传），需综合考虑安全性、性能、成本、业务需求等因素。1.推荐前端直传的场景适用条件：大文件上传（如视频、大型数据集）高并发场景（如用户生成内容平台）需节省服务器带宽成本业务对实时性要求高方案设计：临时凭证（STS）或预签名URL：通过后端服务生成短期有效的安全凭证（如AWSS3预签名URL、阿里云OSSSTS），避免暴露长期密钥。分片上传与断点续
C语言笔记（郝斌） cndsdss c语言单片机 stm32 开发语言笔记 linux 改行学it
二次复习做的笔记，很基础，适合新手入门，复习巩固C语言前言1.为什么学习c语言优点：代码量小速度快功能强大可移植性较好缺点：危险性高开发周期长应用领域广：系统软件应用软件为学习数据结构C++打基础2.怎样学C语言多思考多上机多上机多上机目标：能看懂程序，能调试程序3.学习的目标熟练掌握C语言的语法规则理解面向过程的思想4.学习重点流程控制函数指针动态内存分配1.基本编程知识1.1CPU内存条硬盘显
嵌入式单片机基础篇（三十四）之I2C通信以及stm32单片机程序详解 lostlll AT24C02 嵌入式单片机嵌入式字符串单片机 stm32 IIC
I2C通信以及stm32单片机程序详解1、初始化IO口：#defineIIC_SCLPBout(6)//SCL#defineIIC_SDAPBout(7)//SDA#defineREAD_SDAPBin(7)//输入SDA（1）在固件库中操作IDR寄存器读取IO端口数据是通过GPIO_ReadInputDataBit函数实现的：uint8_tGPIO_ReadInputDataBit(GPIO_T
大数据分析服务器硬件配置如何选择 elva428204358 服务器服务器
大数据，现如今已被人工智能替代。我们先不讨论人工智能，就大数据而言，我们都是在强调他的技术，而我们在用大数据时候，经常用它的来神话它的影响。例如，广告投放精准化，社会安全管理有序，医药行业智能化等。一、建立大数据分析服务器的五个基本方面1、可视化分析：大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，
《“漏洞克星”集结令：Java实战派+安全极客，为Z世代打造技术诺亚方舟！》 ELIHU_han 安全开发 java 网络安全安全 web安全计算机网络安全威胁分析系统安全
【急聘！】Java全栈&安全开发勇士集结！和大学生/IT人一起搞事情，不卷只燃！#Java开发#安全工程师#初创团队招聘#大学生创业我们是谁？我们是一支“小而悍”的极客小队，正在打造一款面向在校大学生和IT新人的技术实战平台！（偷偷剧透：用Java写核心，用安全护数据，用开源搞事情！）拒绝大厂式内卷，专注用代码解决真实痛点。如果你也想“从0到1”参与产品诞生，这里就是你的战场！我们需要这样的你！1
印度股票行情数据API接口教程 StockTV CryptoRzz python 数据分析
印度股票实时行情数据接口印度股票实时行情API数据接口原创印度交易所股票行情数据API接口获取数据源测试Key:StockTVAPI功能列表模块功能描述示例方法股票市场列表、指数、K线、IPO日历等get_indices(),get_kline()外汇实时汇率、交叉汇率、K线图表get_real_time_rates()期货期货列表、实时行情、历史数据get_futures_market()加密货
DataFrame中添加和删处‘行’ 手机忘记时间 pandas
添加：在Pandas中，df.loc[len(df)]=new_values这行代码用于在DataFramedf的末尾添加一行新数据。这里的len(df)返回的是DataFrame当前的行数，因此df.loc[len(df)]指向的是一个新的行索引，这个索引在当前DataFrame中还不存在。以下是这行代码的详细解释：df：代表你的DataFrame对象。loc：是Pandas提供的基于标签的索引
MSQL操作案例熬夜苦读学习 MYSQL 数据库 oracle sql 后端
1.数据库创建数据库1.1.1默认创建数据库createdatabase数据库名解释：使用create命令创建一个数据库，database关键字后面接自定义数据库名字，默认UTF-8编码（utf8_general_ci）createdatabasehelloworld;1.1.2指定字符集编码建数据库createdatabase数据库名charset=字符编码;解释：使用create命令创建一个数
python Dataframe操作 whale fall python进阶 python 开发语言
目录：一、在Dataframe的最后插入一列二、指定Dataframe一列的数据类型三、遍历Dataframe的每一行，为什么修改行里的数据不会同步修改到Dataframe中四、Dataframe删除重复的行五、Dataframe删除列六、Dataframe重排索引七、给Dataframe增加一列，每次遍历给该新增列中的元素赋值八、将字典嵌套列表转换为Dataframe九、Dataframe中at
thrift软件、.thrif文件和thrift协议是什么关系，有什么用 fzip Doris Doris内部通信协议
Thrift软件、.thrift文件和Thrift协议是ApacheThrift框架的三个核心组成部分，它们协同实现跨语言服务的高效开发与通信。以下是三者关系及作用的详细解析：一、核心组件关系1.Thrift软件（框架）•定位：ApacheThrift是一个跨语言的RPC（远程过程调用）框架，用于不同编程语言编写的服务之间的通信。•功能：•提供IDL（接口定义语言）编译器，将.thrift文件转换
机器学习篇——决策树基础巷955 机器学习算法决策树
引言：决策树是一种常见的机器学习算法，广泛应用于分类和回归任务。它通过树状结构表示决策过程，每个内部节点代表一个特征测试，每个分支代表一个可能的测试结果，而每个叶节点则代表一个类别或回归值。本文将详细介绍决策树的原理、构建过程、优缺点以及实际应用。1.决策树的基本概念1.1什么是决策树？决策树是一种监督学习算法，主要用于分类和回归任务。它通过递归地将数据集划分为更小的子集，最终生成一棵树状结构。决
STM32 - I2C 通信协议上山的月江科大STM32 笔记单片机 stm32
起源：由飞利浦公司在1980年代初开发的一种简单、双线双向的同步串行总线，它利用一根时钟线和一根数据线在连接总线的两个器件之间进行信息的传递，为设备之间数据交换提供了一种简单高效的方法。特点：只需要SDA、SCL两条总线；支持总线挂载多设备（一主多从、多主多从）。连接到总线的每个设备均可通过唯一地址进行软件寻址；可提供仲裁和冲突检测；同步，半双工SCL只能主机控制，SDA看情况控制传输速度：标准模
2024年CRM系统全景：领先品牌的深度解析与企业选择指南新增长SaaS点评云计算人工智能大数据业界资讯 crm 客户关系管理
在SaaS赛道中，CRM系统以其与交易的紧密联系和迅猛的发展势头，成为核心的竞争领域。根据艾媒咨询的最新数据，2021年中国CRM市场规模达到156亿元，同比增长16.5%。随着市场渗透率的提高以及社交化、智能化CRM解决方案的不断涌现，行业增长势头强劲。预计从2023年起，市场将以大约10%的年增长率稳健前行，未来三年内市场规模有望增加百亿，到2024年总规模将突破250亿元大关。《2024全国
IBUF和BUFG 起床学FPGA fpga开发
在代码中，DATA_IN和CLK_IN都通过IBUF实例进行缓冲。IBUF负责将外部信号转换到FPGA内部标准并驱动内部信号线。这不仅在物理上是必要的一步（没有IBUF就无法直接驱动内部逻辑），而且还允许我们指定引脚的约束（如电平标准等）。BUFG全局时钟缓冲：bufg_clk实例将时钟连接到了全局时钟网络。这样做的直接好处是降低时钟的偏斜(skew)和抖动(jitter)。时钟偏斜指FPGA内不
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
使用DeepSeek来构建LangGraph Agent 乔巴先生24 人工智能 python 人机交互
随着DeepseekR1的发布，我们不得不把目光聚焦在这个能赶超多个顶流大模型的模型身上，它主要是其在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAIo1正式版。为了更好的了解它的性能，我们这篇文章来尝试用它来构建Agent。安装!pipinstall-qopenailangchainlanggraph
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法带上一无所知的我智能体的自我修炼：强化学习指南深度学习算法人工智能 DQN
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数，解决传统Q-Learning在高维状态空间下的"维度灾难"问题。引言：代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚，我突然意识到：强化学习的过程，竟与佛家修行惊人地相似。智能体在环境中探索
提高客户体验：人类计算在营销中的应用 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术，以及如何通过这些技术实现个性化营销、客户关系管理和用户体验优化。文章分析了当前技术的发展趋势和面临的挑战，并提出了未来发展的方向。引言随着人工智能技术的飞速发展，人类计算在各个领域中
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag