突发恶疾的Kaz哥

《属性数据分析引论》部分课后习题R语言实践（第三章、第四章）

前言

第三章广义线性模型

习题3.18

a小题

b小题

c小题

d小题

习题3.19

a小题

b小题

c小题

第四章 Logistic回归

习题4.1

a小题

b小题

c小题

d小题

e小题

习题4.2

a小题

b小题

c小题

d小题

小结

前言

习题选自高等教育出版社译制，Alan Agresti著的《属性数据分析引论(第二版)》中，第三章广义线性模型、第四章Logistic回归中的课后习题。具体题目在文中给出。

本人目前是一位在读的应用统计学专业本科生，这些题目是在课前进行的练习，所给出的思路和答案可能有所错误，欢迎大家批评指正。

第三章广义线性模型

习题3.18

表3.8列出了英乙联赛一个赛季每支球队观赛总人数（千人）和被捕总人数.

表3.8 习题3.18关于足球队逮捕人数数据
球队	观众数	逮捕数	球队	观众数	逮捕数
阿斯顿维拉	404	308	什鲁斯伯里	108	68
布拉德福城	286	197	史云顿	210	67
利兹联	443	184	谢菲尔德联	224	60
伯恩茅斯	169	149	斯托克城	211	57
西布朗维奇	222	132	巴恩斯利	168	55
汉德斯菲德	150	126	米尔沃尔	185	44
米德尔斯堡	321	110	侯城	158	38
伯明翰	189	101	曼彻斯特城	429	35
伊普斯维奇	258	99	普利茅斯	226	29
莱切斯特城	223	81	雷丁	150	20
布莱克本	211	79	奥威	148	19
水晶宫	215	78

a小题

令Y表示观赛总人数为t的球队被捕球迷人数。说明为什么模型E(Y)=μt是可行的。它有等价形式log[E(Y)/t]=α，其中α=log(μ)，给出带位移项的模型表达式。

题解：（本题的解释我并不确定正确）

题目指出了计数响应Y(被捕球迷数)有指标t(总观众数)，那么我们关心的是样本的比率Y/t

若设样本比率的期望值为μ，即，那么两边同乘t便有模型

样本比率的对数模型应为，x是效应因子，在本题中将每个球队的数据视作一次观测，并无效应因子，于是模型表示为，与比较就可得出样本比率的期望值为常数的结论

可以给出带位移的模型表达式为：

b小题

假设样本为泊松样本，拟合模型。给出并解释。

题解：

本题用R进行模型拟合，先将表3.8的数据输入进Excel保存为csv文件，以下是实现的代码

> data3.8=read.csv('table3.8.csv')    #读取数据，并对数据框进行一些处理
> rownames(data3.8)=data3.8[,1]
> data3.8=data3.8[,-1]
> colnames(data3.8)=c('t','Y')
> head(data3.8)                        #展示数据框前6行
###
             t   Y
阿斯顿维拉 404 308
布拉德福城 286 197
利兹联     443 184
伯恩茅斯   169 149
西布朗维奇 222 132
汉德斯菲德 150 126
###
#接着用glm()函数进行拟合，offset表示位移项
> model3.8=glm(Y~NULL,data=data3.8,family=poisson(link='log'),offset=log(t))
> summary(model3.8)
###
Call:
glm(formula = Y ~ NULL, family = poisson(link = "log"), data = data3.8, 
    offset = log(t))

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-12.789   -3.426   -0.938    3.079   10.137  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.91028    0.02164  -42.07   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 669.45  on 22  degrees of freedom
Residual deviance: 669.45  on 22  degrees of freedom
AIC: 812.62

Number of Fisher Scoring iterations: 5
###

从summary(model3.8)返回的模型摘要中可以获得，根据计算得到

这表明被捕球迷数与总观众数的比率期望在0.4左右，即被捕球迷数预计为总观众数的40%

c小题

画出被捕人数与观众人数的散点图以及预测方程。利用残差区分比期望被捕人数更大和更小的球队。

题解：

预测方程即为，模型图像为直线，R中可以通过abline()添加直线

> attach(data3.8)
> mu=exp(model3.8$coe)
> plot(Y~t)
> abline(0,mu)

在直线之上的是被捕人数大于期望值的球队，在直线之下的是被捕人数小于期望值的球队，可以通过残差的正负来判断，也可以用以下命令可以返回被捕人数大于期望值和小于期望值的球队的队名，这种方式和利用残差正负进行判断的方式是等价的

> rownames(data3.8)[Y rownames(data3.8)[Y>=mu*t]    #比期望值大，在直线之上，残差大于0的球队
###
[1] "阿斯顿维拉" "布拉德福城" "利兹联"     "伯恩茅斯"   "西布朗维奇" "汉德斯菲德"
[7] "伯明翰"     "什鲁斯伯里"
###

d小题

用负二项分布拟合模型 $log[E(Y)/t]=\alpha$ . 将 $\hat{\alpha }$ 及其SE与(b)中结果比较。基于这个信息和散布参数及其SE的估计值，泊松假设合适吗？

题解：

负二项对数模型用MASS包内的glm.nb()函数，不采用glm()进行负二项对数拟合的原因是我们暂不知晓样本的散布参数，虽然可以用logtrans()函数确定散布参数倒数θ的取值，但是用glm.nb()可以一步到位，比较方便。不过glm.nb()没有offset参数(位移)，但是我们可以调整formula参数的表达进行带位移项的拟合，这个调整也适用于glm()函数

> library(MASS)
> model3.8_nb=glm.nb(Y~offset(log(t)),data=data3.8,init.theta=1,link='log')
> summary(model3.8_nb)
###
Call:
glm.nb(formula = Y ~ offset(log(t)), data = data3.8, init.theta = 3.135631071, 
    link = "log")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2049  -0.7464  -0.1857   0.6129   1.5568  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.9052     0.1200  -7.546 4.49e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Negative Binomial(3.1356) family taken to be 1)

    Null deviance: 24.15  on 22  degrees of freedom
Residual deviance: 24.15  on 22  degrees of freedom
AIC: 244.24

Number of Fisher Scoring iterations: 1


              Theta:  3.136 
          Std. Err.:  0.920 

 2 x log-likelihood:  -240.236
###
#比较两个模型截距的估计值和标准误
> summary(model3.8)$coe
###
  	            Estimate Std. Error   z value Pr(>|z|)
(Intercept) -0.9102802 0.02163712 -42.07031        0
###
> summary(model3.8_nb)$coe
###
 	             Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -0.9051888  0.1199579 -7.545888 4.492147e-14
###

从模型摘要可见负二项对数模型的θ的估计值为3.136，标准误为0.920，则散布参数的估计值为，说明样本具有一定的超散布性

两个模型对α的估计值相似，但是负二项对数模型的α的标准误相对较高，用模型的偏差进行比较，也可以得出负二项对数模型的拟合效果更好。综上，泊松假设并不适合。

习题3.19

表3.4给出了火车事故数据

表3.4 英国涉及火车的碰撞事故
年份	火车里程	火车碰撞	火车-道路碰撞	年份	火车里程	火车碰撞	火车-道路碰撞
2003	518	0	3	1988	443	2	4
2002	516	1	3	1987	397	1	6
2001	508	0	4	1986	414	2	13
2000	503	1	3	1985	418	0	5
1999	505	1	2	1984	389	5	3
1998	487	0	4	1983	401	2	7
1997	463	1	1	1982	372	2	3
1996	437	2	2	1981	417	2	2
1995	423	1	2	1980	430	2	2
1994	415	2	4	1979	426	3	3
1993	425	0	4	1978	430	2	4
1992	430	1	4	1977	425	1	8
1991	439	2	6	1976	426	2	12
1990	431	1	2	1975	436	5	2
1989	436	4	4

a小题

比较只有截距项的撞车比率的泊松GLM和具有时间趋势项的GLM，这两个模型的偏差分别是35.1和23.5。通过上述结果，能将这29年里每年的撞车事件数看作具有相同参数的独立泊松变量吗？

题解：

不带时间效应的模型偏差为35.1，加入时间效应的模型偏差为23.5，这其实已经说明带时间效应的模型拟合效果更好

另外我们可以通过对两个模型的偏差做差，得到的值近似服从卡方分布，自由度是两个模型的参数数量差，对该题来说，这正是β=0的似然比检验，自由度df=1

用R辅助计算P值

> Dev1=35.1;Dev2=23.5
> p.value=1-pchisq(Dev1-Dev2,df=1);p.value 
###
[1] 0.0006595182
###

β显著性的似然比检验P值很小，说明时间对撞击次数的影响还是存在的，即使模型的偏差并没有减少很多。这样来看这29年的撞车事件数并不能看作具有相同参数的独立泊松变量。

b小题

3.3.6节拟合了负二项模型。1975年之后第x年撞车比率的估计值为 $e^{-4.20}\cdot (e^{-0.0337})^{x}=(0.015)(0.967)^{x}$ . ML估计 $\hat{\beta }=-0.0337$ 的SE=0.0130。建立 $H_{0}:\beta =0$ 对 $H_{a}:\beta \neq 0$ 的Wald检验.

题解：

题目要求的检验便是参数β的显著性Wald检验

β的估计值除以其标准误便是显著性检验的Wald统计量，其近似服从标准正态分布

我们可以在R中进行相同的拟合，3.3.6节中给出散布参数D=0.099

> data3.19=read.csv('table3.4.csv')    #数据只取了年份、火车里程、火车-道路碰撞次数
> data3.19[,1]=data3.19[,1]-1975
> head(data3.19)
###
  年份 里程 碰撞
1   28  518    3
2   27  516    3
3   26  508    4
4   25  503    3
5   24  505    2
6   23  487    4
###
> model3.19_3=glm(碰撞~年份+offset(log(里程)),data=data3.19,family=negative.binomial(theta=1/0.099,link='log'))
> summary(model3.19_3)$coe        #获取模型的参数估计和检验
###
               Estimate Std. Error    t value     Pr(>|t|)
(Intercept) -4.19997478 0.20170528 -20.822334 3.658918e-18
年份        -0.03366993 0.01326265  -2.538703 1.720186e-02
###

R中得到的参数估计和标准误SE与书中一致，这里进行的显著性检验就是Wald检验，可见P值约为0.0172，并没有比0.05小很多，但是依然能够作为拒绝原假设的依据。

c小题

β的似然比95%置信区间为(-0.060,-0.008).求出事故率的年乘积效应的区间，解释结果。

题解：

变换模型的表达形式，有

于是事故率的年乘积效应就是，β的似然比95%置信区间题目给出为(-0.060,-0.008)，通过指数变换可以得到的95%置信区间

用R辅助计算

> c(exp(-0.06),exp(-0.008))
###
[1] 0.9417645 0.9920319
###

计算出的95%置信区间约为(0.942,0.992)，说明每到下一年，有95%的把握估计该年的事故率相比上一年事故率减少0.8%至5.8%

第四章 Logistic回归

习题4.1

一项研究利用logistic回归确定与Y=癌症是否缓解（1=是）相关联的特征量。最重要的解释变量是通过对病人注射氚，标记胸苷后，测量细胞繁殖的标记指数（LI）。该研究给出被“标记”细胞的百分比。表4.8给出了分组数据，表4.9是以LI 预测 $\pi =P(Y=1)$ 的logistic回归模型的结果。

表4.8 习题4.1关于癌症缓解的数据
LI	案例数	缓解数	LI	案例数	缓解数
8	2	0	22	2	1
10	2	0	24	1	0
12	3	0	26	1	1
14	3	0	28	1	1
16	3	0	32	1	0
18	1	1	34	1	1
20	3	2	38	3	2

表4.9 习题4.1的电脑输出结果

Standard Likelihood Ratio 95% Chi-

Parameter Estimate Error Confidence Limits Square

Intercept -3.7771 1.3786 -6.9946 -1.4097 7.51

li 0.1449 0.0593 0.0425 0.2846 5.96

Scale 1.0000 0.0000 1.0000 1.0000

LR Statistics For Type 3 Analysis

Chi-

Source DF Square Pr > Chisq

li 1 8.30 0.0040

Obs li nc nr pi_hat lower upper

1 8 2 0 0.06797 0.01121 0.31925

2 10 2 0 0.08879 0.01809 0.34010

...

a小题

说明当LI=8时，软件如何得到 $\hat{\pi }=0.068$ .

题解：

由于表4.9已经给出了模型的拟合结果，接下来R只用于辅助计算，不再次拟合模型。

根据表4.9得到的结果，模型可表示为

将LI=8代入模型，可以得出的logit值，通过反解公式

就可以得到当LI=8时的值，在R中可以进行如下计算得到

> T.logit=function(x){exp(x)/(1+exp(x))}
> T.logit(-3.7771+0.1449*8)
###
[1] 0.06799525
###

于是得到

b小题

证明当LI=26.0时， $\hat{\pi}=0.50$ .

题解：

当时，logit值为0

令模型的线性部分为0，反解出LI的值即可

即解方程

解得

c小题

证明当LI=8时 $\hat{\pi}$ 的变化率为0.009，当LI=26时为0.036

题解：

将模型表示为与LI的函数，有

求LI在各个取值时的变化率，可以对上式求导，有

将LI=8和LI=26分别代入上式便可得到变化率，在R中可以进行如下计算得到

> g=expression(exp(-3.7771+0.1449*x)/(1+exp(-3.7771+0.1449*x)))
> D(g,'x')
###
exp(-3.7771 + 0.1449 * x) * 0.1449/(1 + exp(-3.7771 + 0.1449 * 
    x)) - exp(-3.7771 + 0.1449 * x) * (exp(-3.7771 + 0.1449 * 
    x) * 0.1449)/(1 + exp(-3.7771 + 0.1449 * x))^2
###
> x=8
> eval(D(g,'x'))
###
[1] 0.009182588
###
> x=26
> eval(D(g,'x'))
###
[1] 0.03622415
###

计算得到LI=8时的变化率约为0.009；LI=26时的变化率约为0.036

d小题

LI的下四分位数和上四分位数分别为14和28。证明 $\pi$ 在这两个值之间从0.15增加到0.57，增幅为0.42

题解：

依然通过将LI的取值代入模型函数来计算

在R中可以进行如下运算

> g=expression(exp(-3.7771+0.1449*x)/(1+exp(-3.7771+0.1449*x)))
> x=14;a=eval(g);a        #LI=14时的预测概率
###
[1] 0.1482365
###
> x=28;b=eval(g);b        #LI=28时的预测概率
###
[1] 0.5695707
###
> b-a                     #增幅
###
[1] 0.4213342
###

可得到当LI=14时；当LI=28时，增幅为0.42

e小题

证明当LI增加1，缓解的优势的估计值扩大1.16倍

题解：

在logistic模型中，优势可以表示为

x每增加1，优势便扩大 $e^{\beta}$ 倍，于是该题我们要求的便是

根据表4.9可知，则的计算为

> exp(0.1449)
###
[1] 1.155924
###

得到当LI增加1，缓解的优势的估计值扩大约1.16倍

习题4.2

续上题。利用表4.9的信息：

a小题

建立LI效应的Wald检验，并解释结果

题解：

根据表4.9中的信息，LI的效应估计值，标准误

Wald统计量为，表4.9中已经给出了 $z^{2}$ 的值为5.96

在大样本下z近似服从标准正态分布，则 $z^{2}$ 近似服从自由度df=1的卡方分布

LI效应的Wald检验P值计算

> 1-pchisq(5.96,df=1)
###
[1] 0.01463404
###

P值约等于0.015，小于0.05，可以认为LI的效应是有显著性意义的

b小题

建立相应于LI增加1个单位优势比的Wald置信区间，并解释结果

题解：

由上文可知，缓解的优势可以表示为

那么LI增加1个单位的优势比就是

求的95%Wald置信区间可以从求β的95%Wald置信区间开始，再通过指数变换得到

> beta=0.1449
> SE=0.0593
> a=c(beta-qnorm(1-0.05/2)*SE,beta+qnorm(1-0.05/2)*SE);a    #β的置信区间
###
[1] 0.02867414 0.26112586
###
> exp(a)        #exp(β)的置信区间
###
[1] 1.029089 1.298391
###

得到LI增加1个单位的优势比即eβ的95%Wald置信区间约为(1.029,1.299)

这说明LI每增加1个单位，我们有95%的把握认为优势会变为原来的1.029到1.299倍，总的来说优势是随着LI上升的

c小题

建立LI效应的似然比检验，并解释结果

题解：

本题所给出的样本量并不大，Wald检验的功效和可信度不如似然比检验，表4.9已经给出了似然比检验的结果

Chi-

Source DF Square Pr > Chisq

li 1 8.30 0.0040

似然比统计量值为8.30，自由度为1，P值为0.004

检验结果与Wald检验相同，可以认为LI的效应是有显著性意义的，不过似然比检验的结果给出了比Wald检验更强烈的证据(似然比检验的P值更小)

d小题

建立优势比的似然比置信区间，并解释结果

题解：

本题依然是求的置信区间，依然是从β的置信区间入手，不过本次是用β的似然比置信区间

表4.9已经给出了β的95%似然比置信区间为(0.0425,0.2846)，对其进行指数变换即可得出的95%似然比置信区间

> exp(c(0.0425,0.2846))
###
[1] 1.043416 1.329230
###

得的95%似然比置信区间约为(1.0434,1.3292)，与Wald置信区间的结论相似，LI每增加1个单位，我们有95%的把握认为优势会变为原来的1.0434到1.3292倍

小结

以上是从广义线性模型和Logistic回归两章选的习题的练习结果。Logistic回归模型也算是广义线性模型中的一种，其应用比较广泛，所以书上总共用了两个章节讲解Logistic回归模型。本次关于Logistic回归模型的习题还是刚上手的，具体的知识还没仔细思考过，用的还都是在第三章广义线性模型中所了解的知识。

再次声明本人只是一名小小的本科生，题目可能做错，欢迎批评指正和交流。希望能帮到大家。

IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
零基础上手Python数据分析 (7)：Python 面向对象编程初步 kakaZhui python 数据分析 excel
写在前面回顾一下，我们已经学习了Python的基本语法、数据类型、常用数据结构和文件操作、异常处理等。到目前为止，我们主要采用的是面向过程(ProceduralProgramming)的编程方式，即按照步骤一步一步地编写代码，解决问题。这种方式对于简单的任务已经足够，但当程序变得越来越复杂，代码量越来越大时，面向过程编程可能会显得力不从心，代码难以组织、复用和维护。代码复杂性带来的挑战：面向过程v
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
Pandas库中pd.to_datetime()函数用法详细介绍 Pythoner研习社零基础学python pandas python 开发语言
pd.to_datetime()是Pandas库中用来将日期和时间字符串转换为日期时间对象的一个非常有用的函数，常用它进行时间上的计算和数据分析。1功能简介在Pandas中，pd.to_datetime()函数可以接收多种格式的日期时间字符串、列表、数组或者Pandas的Series对象，然后将它们转换成Pandas的datetime64类型。转换后的数据可以更好地与Pandas的日期时间功能集成
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

《属性数据分析引论》 部分课后习题R语言实践（第三章、第四章）

前言

第三章 广义线性模型

习题3.18

a小题

b小题

c小题

d小题

习题3.19

a小题

b小题

c小题

第四章 Logistic回归

习题4.1

a小题

b小题

c小题

d小题

e小题

习题4.2

a小题

b小题

c小题

d小题

小结

你可能感兴趣的:(r语言,数据分析,概率论)

《属性数据分析引论》部分课后习题R语言实践（第三章、第四章）

第三章广义线性模型