kaiming0000

医学统计学常用的单因素统计学方法及SAS代码实现

今天介绍一下初学医学统计学常见的单因素方法以及应用条件，在医学统计学中，常见的两种设计是完全随机设计和配对设计，研究目的往往包括两种，样本均数的比较和样本率的比较。

样本均数的比较即结局变量为连续变量；样本率的比较即结局变量为分类变量；

1.样本均数比较的统计学方法概况

2、配对t检验

3、Wilcoxon秩和检验：

4、Wilcoxon配对秩和检验

5、方差分析：完全随机设计，多组正态、方差齐数据比较

6、Kruskal-wallis秩和检验

7、随机区组方差分析：配对设计，多组正态资料比较

8、 Friedman秩和检验：配对设计，多组非正态资料比较

9、卡方检验：

10、配对卡方检验

11、计数资料的配对秩和检验

1.样本均数比较的统计学方法概况

2样本率比较的统计学方法概况

下面一一介绍每种方法的SAS实现及结果解读：

1、t检验和t’检验：完全随机设计，两组正态分布，样本均数比较

目的：比较甲乙两班的平均成绩，其中1代表甲班；2代表乙班

其中分组变量：class 分析变量：score

/*首先是录入数据*/

data ex1;

do class=1 to 2;

input score@@;

output;

end;

cards;

76 72

90 78

62 59

76 72

65 85

65 71

77 69

83 70

83 60

75 81

;

proc print;

run;

/*下面是正态性检验*/

proc univariate normal;

class class;/*放分组变量*/

var score;/*放分析变量*/

run;

/*正态性检验结果解读：找到下面这个表，分别给出了class=1和class=2的正态性检验结果*/

这里是给出了四种方法，感兴趣的可以自己搜索。

这里主要看后面的P值，p>0.05，表示符合正态性，否则不满足；

/*下面是t检验和t’检验的程序*/

proc ttest;

class class;/*放分组变量*/

var score;/*放分析变量*/

run;

/*结果给出以下内容*/

2、配对t检验

配对设计，正态数据

案例情况：某班连续进行了两次考试，每个同学有两次成绩，现比较两次成绩之间的差异，这属于配对设计，采用配对t检验

/*录入数据*/

data ex2;

input score1 score2;

d=score1-score2;/*此处生成一个两次考试成绩的差值*/

cards;

78 71

63 44

72 61

89 84

91 74

49 51

68 55

76 60

85 77

55 39

;

run;

/*正态性检验：也可以给出配对t检验的结果*/

proc univariate normal;

var d;

run;

/*配对t检验程序*/

proc ttest;

paired score1*score2;/*两个配对变量用*连接 */

run;

就看到这里就行了，后面是一些图，感兴趣自己可以研究。

3、Wilcoxon秩和检验：

应用条条件：

完全随机设计，两组非正态数据比较；
完全随机设计，两组有序多分类资料比较

本例目的仍是比较甲（class=1）乙(class=2)两班的成绩。

整理假设两班的分数不符合正态分布。

/*首先是录入数据*/

data ex1;

do class=1 to 2;

input score@@;

output;

end;

cards;

76 72

90 78

62 59

76 72

65 85

65 71

77 69

83 70

83 60

75 81

;

proc print;

run;

/*SAS结果*/

这里可以先算算一下两组的中位数

proc means data=ex1 median;

CLASS class;/*放分组变量*/

VAR score; /*放分析变量*/

RUN;

/******再看秩和检验的结果******/

PROC NPAR1WAY wilcoxon;

CLASS class;/*放分组变量*/

VAR score; /*放分析变量*/

RUN;

结果解读：z检验的p=0.3840;近似t检验的p=0.3948；均小于0.05，说明两班的成绩存在差异。

4、Wilcoxon配对秩和检验

又叫Wilcoxon符号秩和检验：配对设计，两组非正态数据比较。

案例情况：某班连续进行了两次考试，每个同学有两次成绩，现比较两次成绩之间的差异，这属于配对设计，现假设两组差值不符合正态分布，因此采用Wilcoxon配对秩和检验

/*录入数据*/

data ex2;

input score1 score2;

d=score1-score2;/*此处生成一个两次考试成绩的差值*/

cards;

78 71

63 44

72 61

89 84

91 74

49 51

68 55

76 60

85 77

55 39

;

run;

/*Wilcoxon配对秩和检验程序*/

proc univariate;

var d;/*差值变量*/

run;

结果解读：Wilcoxon配对秩和检验p=0.0039<0.05，说明两次成绩存在差异。

5、方差分析：完全随机设计，多组正态、方差齐数据比较

案例分析：（完全随机设计）把15名癌症患者随机分为3组，分别给予A（1组）、B（2组）、C（3组）药物，用药数周后，观察结局指标x的差异，并进一步进行两两比较*/

/*录入数据*/

data test1;

input group x;

cards;

1 229

1 274

1 310

1 300

1 230

2 210

2 285

2 117

2 178

2 134

3 279

3 334

3 303

3 338

3 198

;

proc print;

run;

/* 对资料进行正态性检验 */;

proc univariate normal ;

class group;

var x;

run;

这里就不一一解释了，正态性的表和前面两组的一样

/*方差分析程序，并两两比较*/

proc glm;

class group;/*分组变量*/

model x=group;/*分析变量=分组变量应该这样建立模型*/

means group/hovtest=bartlett lsd snk dunnett('3') ;

/* hovtest指定方差齐性检验方法，默认为levene's方法

bartlett:多样本，符合正态分布

snk:对变量g的各水平组进行两两比较（探索性的）

dunnett:(k-1)个实验组与一个对照组均数有无差别的多重比较（证实性）

lsd:适用于一对或几对在专业上有特殊意义的样本均数间的比较 (证实性）*/

run;

/*方差分析总体的结果*/

结果解释：p=0.02<0.05,因此，三组之间存在着差异，但具体是哪两组有差异，需要进一步看两两比较的结果。

/*下面这幅图是方差齐性检验结果*/

/*两两比较结果：我们的模型用了三种办法：lsd snk dunnett('3')*/

上述三种方法，大家选择一种就行，这里我建议直接用snk法，因为可以给出两两比较的结果。

6、Kruskal-wallis秩和检验

应用条件：

完全随机设计：多组非正态或多组正态但方差不齐资料比较
完全随机设计：多组有序多分类资料比较

案例：某医生将72名癌症病人随机分为三组，并分别给予A、B、C三种药物，治疗一疗程后，测定了这些病人胃部的ki-67水平，用以比较三种药物的疗效。

数据收据情况如下图所示：

/*首先是数据导入*/

data result;

do group=1 to 3;

input x@@;

output;

end;

cards;

0.14 0.484 0.138

0.116 0.152 0.218

0.162 0.34 0.148

0.144 0.31 0.191

0.406 0.284 0.146

0.152 0.272 0.104

0.154 0.764 0.252

0.176 0.15 0.204

0.136 0.236 0.09

0.248 0.156 0.054

0.216 0.814 0.232

0.104 0.148 0.06

0.31 0.538 0.14

0.252 0.414 0.042

0.132 0.154 0.228

0.126 0.134 0.254

0.222 0.42 0.366

0.35 0.31 0.282

0.186 0.096 0.18

0.386 0.142 0.202

0.206 0.672 0.234

0.392 0.16 0.192

0.102 0.28 0.044

0.236 0.202 0.1

;

proc print;

run;

表示数据写入成功

/*Kruskal-wallis秩和检验程序:有两种方法*/

/*方法1*/

PROC NPAR1WAY wilcoxon data=result;

CLASS group;/*放分组变量*/

VAR x;/*放分析变量*/

RUN;

/*方法2*/

proc freq data=result;

tables group*x/ scores = rank cmh2 noprint;

/*group*x即：分组变量*分析变量；

后面的“scores = rank cmh2 noprint”不用管 */

run;

方法1结果

结果解读：P=0.0139<0.05，说明三组药物效果不同，但具体哪两组存在差异，需要进一步两两比较。

说起两两比较，可能需要先说明一下原理，再说程序可能更容易懂一些。

/***两两比较***/

由于秩和检验比较的秩次，因此这里的两两比较

采用proc rank程序计算出每个人的秩次
再用proc glm或proc anova程序比较不同组的秩次，选用的两两比较的方法包括lsd snk法。

/*计算个案秩次*/

proc rank data =result out = a;/*out = a：表示计算秩次数据集为a*/

var x;/*放分析变量*/

ranks r;/*r是自己命名：代表秩次变量*/

quit;

可以看到a数据集计算出了秩次，变量名为r

/*两两比较的程序*/

proc anova data=a;

class group ;

model r = group ;/*模型建立写：秩次变量=分组变量*/

means group/ lsd snk ;/*means后面写分组变量*/

quit;

proc glm data=a;

class group ;

model r = group ;/*模型建立写：秩次变量=分组变量*/

means group/ lsd snk ;/*means后面写分组变量*/

quit;

上面两个程序的结果一样的，下面仅展示其中一种程序的结果

结果解读：LSD和SNK法结果一样，大家选择其中一种就行；

结果表名，1组和2组，1组和3组无差异；2组和3组有差异。

参考来源：多个样本的非参数检验的两两比较 [SAS] (douban.com)

随机区组方差分析：配对设计，多组正态资料比较

随机区组设计（randomized block design）是将受试对象按自然属性（如实验动物的窝别、体重，病人的性别、年龄及病情等）相同或相近者组成区组，然后把每个区组中的受试对象随机地分配给不同处理。设计中有两个因素，一个是处理因素，另一个是按自然属性形成的区组。区组的选择原则是“区组间差别越大越好，区组内差别越小越好”。

案例：

为了研究注射不同剂量雌激素对大白鼠子宫重量的影响，某实验工作人员取4窝不同品种的大白鼠，

每窝3只，将每窝大白鼠随机地分配到3个组，分别接受不同剂量的雌激素注射，然后测定其子宫重量。

目的：注射不同剂量的雌激素对大白鼠子宫重量是否存在差异？

分析：此研究属于随机区组设计，其中

分组因素：注射不同剂量雌激素，总共3组

区组因素：窝别，共4窝

/*首先是写入数据*/

data s;

do block=1 to 4;/*区组*/

do treat=1 to 3; /*处理因素*/

input x @@;

output;

end;end;

cards;

108 112 142

46 64 116

70 96 134

43 65 98

;

proc print;

run;

/*====正态性检验，随机区组设计只需要做不同分组的正态性检验，区组可以不做====*/;

proc univariate normal;

var x;/*结局变量*/

class treat;/*分组变量：3组*/

run;

可以看到，三组P均>0.05，说明符合正态分布。

/*随机区组方差分析程序*/

proc glm data=s;

class block treat;/*加入区组变量和分组变量*/

model x=treat block ;/*模型设定：结局变量=分组变量区组变量*/

means treat/snk ;/*====进行多重比较，若不加选择项，则给出按自变量

分组后因变量的均值和标准差====*/

/*====多重比较的方法lsd dunnett(1) tukey=====*/

run;

/*结果表*/

/*解读*/

III型平方和的结果是我们主要关心的结果，这个表相当于校正了区组和分组变量，然后看不同变量的p值。

比如，本例主要关心不同分组是否存在差异，即看treat，其p值校正了block，p=0.0002<0.05，因此，三组不同剂量注射雌激素对大白鼠的体重影响不同。

但具体哪两组不同呢？需要进一步两两比较。

上述程序其实已经给出了结果，下面解读：

/*解读*/

组1、组2、组3分别对应C、B、A，字母不同，因此

组1/组2、组1/组3、组2/组3都不同。

Friedman秩和检验：配对设计，多组非正态资料比较

案例：

某科研人员为探讨三种新型试验法对胃癌的血清内（ESM‐１）的变化，将12窝小白鼠（每窝3只）做成胃癌模型，然后把每窝3只小白鼠随机分配到3个不同的实验组，采静脉血４ml ，分离血清，成批检测 ESM‐１（ng／ml）

结果见表。问（ESM‐１）有无差别，如果有差别，作两两比较。

区组编号 A B C

1 0.03 0.08 0.16

2 0.06 0.07 0.19

3 2.26 2.98 3.21

4 0.03 0.03 0.74

5 0.02 0.1 0.24

6 0.03 0.08 0.16

7 3.17 3.58 3.75

8 0.05 0.09 0.28

9 0.02 0.06 0.29

10 0.04 0.06 0.18

11 6.53 7.18 8.09

12 0.05 0.09 0.17

在此研究中，属于随机区组设计，有两个因素，一是区组因素（窝别：共12组）；分组因素（实验方法：共3种）

/*首先写入数据*/

data test2;

do block=1 to 12;

do group=1 to 3;

input x@@;

output; end; end;

cards;

0.03 0.08 0.16

0.06 0.07 0.19

2.26 2.98 3.21

0.03 0.03 0.74

0.02 0.1 0.24

0.03 0.08 0.16

3.17 3.58 3.75

0.05 0.09 0.28

0.02 0.06 0.29

0.04 0.06 0.18

6.53 7.18 8.09

0.05 0.09 0.17

;

proc print;

run;

/*正态性检验*/

proc univariate normal data=test2;/*正态性检验*/

class group;/*放置分组变量*/

var x;/*放结局变量*/

run;

其实这里建议，正态性建议可以相对主观一些，即查看正态分布图，而不是单纯以统计学检验的P值作为标准；因为，可以这样说，在真实世界研究中，即便数据看起来正态，但是统计学检验往往还是非正态。

/*friedman秩和检验程序*/

proc freq data=test2;

table block*group*x/noprint scores=rank cmh2;

/*scores=rank执行非参数检验，cmh2输出行平均得分差值*/

/* block*group*x：区组变量*分组变量*结局变量 */

RUN;

结果解读：P<0.0001，说明三种方法的效果不同，但具体哪两种，需要进一步两两比较。

/*两两比较程序*/

/*需要说明的是：两两比较的思想是先算出每个区组里面个案的秩次，然后采用proc glm里面的lsmeans进行两两比较*/

/*按照区组排序*/

proc sort data=test2 out=a;

by block ;

run;

/*算出每个区组个案的秩次*/

proc rank data=a out=b;

var x;/*放结局变量秩次*/

by block;/*放区组变量*/

ranks r ;/*秩次变量：新生成的，自己命名*/

run;

/*利用秩次进行两两比较*/

proc glm data=b ;

class group block ;

model r = group block/ ss3 ;

/*秩次=分组变量区组变量*/

lsmeans group/ stderr pdiff ;

quit;

参考来源：多个样本的非参数检验的两两比较 [SAS] (douban.com)

9、卡方检验：

应用条件：

完全随机设计，两组或多组2分类资料的比较
两组或多组无序多分类资料的比较

案例：

/*比较3组人群的基因型分布是否有差异？

cc ct tt

胃癌 60 121 69

慢性胃癌 71 135 77

对照 87 149 64 */

/*录入数据*/

data example;

do group=1 to 3;

do gene=1 to 3;

input x@@;

output;end;end;

cards;

60 121 69

71 135 77

87 149 64

;

run;

/*卡方检验程序*/

proc freq data=example;

table group*gene/expected chisq fisher;

/*group*gene：代表分组变量*分析变量*/

weight x;/*由于是汇总数据，因此这是对个案加权，与spss个案加权选项一致；如果你的数据是原始数据，就不用加权了*/

run;

结果解释：p=0.3525>0.05，因此，3组人群的基因型分布无差异。

另外，需要注意的是，分类变量的两两比较是将原始数据进行分割，比如分组变量为1、2、3组，在做两两比较的时候，分别拿出1/2、1/3、2/3的数据进行比较，但需要进行Bonferroni校正，

即显著性的p进行重新调整，显著性的p值=0.05/比较的次数。

10、配对卡方检验

应用条件：配对设计，二分类或无序多分类结局

案例：某科研工作者为研究某种新型消毒液的金葡菌的消毒效果，招募了数名受试者，首先要求参与者左右手相搓，使得两手的细菌菌落数基本均匀。首先采样左手细菌，接着向右手喷洒消毒液，三分钟后，采样右手细菌，然后分别测定左手和右手金葡菌数，研究要求，金葡菌数在100各以下即达标。

研究目的：该种消毒液对细菌消毒达标的效果如何。

该研究属于配对设计，左手为对照组/右手为实验组；结局指标为消毒是否达标

数据收集的汇总情况如下：

右手

左手达标未达标

达标 90 10

未达标 70 30

/*配对卡方检验*/

proc freq data=mydata;

weight f;/*个案加权，和spss的个案加权一样*/

tables left*right/ agree;

exact mcnem;/*展示精确慨率法*/

run;

/*选择分析方法：

当b+c≥40时，选择McNemar检验(2×2配对χ2检验)；*/

/*当20≤b+c<40时，选择校正McNemar检验；*/

/*当b+c<20时，选择确切概率法*/

以上是教材书的建议选中，由于校正McNemar检验需要自己另外编公式，这里建议大家b+c<40时，直接选中确切概率法

结果解释：p<0.05，说明改消毒液可以提高金葡菌消毒的达标率。

11、计数资料的配对秩和检验

应用条件：配对设计，计数资料，有序多分类结局。

分组为两组：

案例：某研究者了解某高血压药物对高血压的治疗效果

表格如下：

/*录入数据*/

DATA example;

DO group=1 TO 2; /*定义行变量，表明group有2行*/

DO effect=1 TO 4; /*定义列变量，表明effect有4列*/

INPUT f@@;

OUTPUT;

END;

CARDS;

33 24 1 2

18 31 9 2

;

proc print;quit;

/*配对秩和检验*/

PROC NPAR1WAY wilcoxon data=example;

CLASS group;/*指明分组变量*/

VAR effect; /*指明分析变量*/

FREQ f;

RUN;

结果解释：p=0.0023,因此两种药物效果存在差异。

另外，当结果变量为多组时，两两比较可以挑出两组数据，重复上述过程即可。

你可能感兴趣的:(大数据,数据分析)

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&