猪逻辑公园

R语言：缺失值处理

前言

一个完整的处理方法通常包含以下几个步骤：

(1) 识别缺失数据；

(2) 检查导致数据缺失的原因；

(3) 删除包含缺失值的实例或用合理的数值代替（插补）缺失值。

但遗憾的是，仅有识别缺失数据是最清晰明确的步骤。知道数据为何缺失依赖于你对数据生成过程的理解，而决定如何处理缺失值则需要判断哪种方法的结果最为可靠和精确。

统计学家通常将缺失数据分为三类。它们都用概率术语进行描述，但思想都非常直观。我们将用sleep研究中对做梦时长的测量（有12个动物有缺失值）来依次阐述三种类型。

(1) 完全随机缺失 若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）。若12个动物的做梦时长值缺失不是由于系统原因，那么可认为数据是MCAR。注意，如果每个有缺失值的变量都是MCAR，那么可以将数据完整的实例看做是对更大数据集的一个简单随机抽样。

(2) 随机缺失 若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失（MAR）。例如，体重较小的动物更可能有做梦时长的缺失值（可能因为较小的动物较难观察），“缺失”与动物的做梦时长无关，那么该数据就可以认为是MAR。此时，一旦你控制了体重变量，做梦时长数据的缺失与出现将是随机的。

(3) 非随机缺失 若缺失数据不属于MCAR或MAR，则数据为非随机缺失（NMAR）。例如，做梦时长越短的动物也更可能有做梦数据的缺失（可能由于难以测量时长较短的事件），那么数据可认为是NMAR。大部分处理缺失数据的方法都假定数据是MCAR或MAR。此时，你可以忽略缺失数据的生成机制，并且（在替换或删除缺失数据后）可以直接对感兴趣的关系进行建模。当数据是NMAR时，想对它进行恰当地分析比较困难，你既要对感兴趣的关系进行建模，还要对缺失值的生成机制进行建模。

处理缺失数据的方法有很多，但不能保证都生成一样的结果。下图列出了一系列可用来处理不完整数据的方法，以及相应的R包。

主要程序包

    install.packages(c("VIM","mice"))
    library(VIM)
    library(mice）

1. 识别缺失数据

首先，我们回顾一下前节的内容并地一步拓展。R使用NA（不可得）代表缺失值，NaN（不是一个数）代表不可能的值。另外，符号Inf和-Inf分别代表正无穷和负无穷。函数is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。每个返回结果都是TRUE或FALSE。表15-1给出了一些示例。

这些函数返回的对象与其自身参数的个数相同。若每个元素的类型检验通过，则由TRUE替换，否则用FALSE替换。例如，令y <- c(1, 2, 3, NA)，则is.na(y)返回向量c(FALSE, FALSE, FALSE,TRUE)。

函数complete.cases()可用来识别矩阵或数据框中没有缺失值的行。若每行都包含完整的实例，则返回TRUE的逻辑向量；若每行有一个或多个缺失值，则返回FALSE。

对于识别缺失值，有两点需要牢记。第一点，complete.cases()函数仅将NA和NaN识别为缺失值，无穷值（Inf和-Inf）被当做有效值。第二点，必须使用与本章中类似的缺失值函数来识别R数据对象中的缺失值。像myvar == NA这样的逻辑比较无法实现。

    NA：代表缺失值；
    NaN：代表不可能的值；
    Inf：代表正无穷；
    -Inf：代表负无穷。
    is.na（）：识别缺失值；
    is.nan（）：识别不可能值；
    is.infinite（）：无穷值。
    is.na（）、is.nan（）和is.infinte（）函数的返回值示例

2. 探索缺失值模式

在决定如何处理缺失数据前，了解哪些变量有缺失值、数目有多少、是什么组合形式等信息非常有用。本节中，我们将介绍探索缺失值模式的图表及相关方法。最后，如果知道了数据为何缺失，这将为后续深入研究提供许多启示。

2.1 列表显示缺失值

你已经学习了一些识别缺失值的基本方法。比如使用complete.cases()函数列出完整的实例，或者相反，列出含一个或多个缺失值的实例。但随着数据集的增大，该方法就逐渐丧失了吸引力。此时你可以转向其他R函数。

mice包中的md.pattern()函数可生成一个以矩阵或数据框形式展示缺失值模式的表格。将函数应用到sleep数据集，可得到：

    > library(mice)  
    > data(sleep,package="VIM")  
    > md.pattern(sleep)
       BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD   
    42       1        1    1   1      1     1    1    1     1    1  0
     2       1        1    1   1      1     1    0    1     1    1  1
     3       1        1    1   1      1     1    1    0     1    1  1
     9       1        1    1   1      1     1    1    1     0    0  2
     2       1        1    1   1      1     0    1    1     1    0  2
     1       1        1    1   1      1     1    0    0     1    1  2
     2       1        1    1   1      1     0    1    1     0    0  3
     1       1        1    1   1      1     1    0    1     0    0  3
             0        0    0   0      0     4    4    4    12   14 38

表中1和0显示了缺失值模式，0表示变量的列中有缺失值，1则表示没有缺失值。第一行表述了“无缺失值”的模式（所有元素都为1）。第二行表述了“除了Span之外无缺失值”的模式。第一列表示各缺失值模式的实例个数，最后一列表示各模式中有缺失值的变量的个数。此处可以看到，有42个实例没有缺失值，仅2个实例缺失了Span。9个实例同时缺失了NonD和Dream的值。数据集包含了总共(42 × 0) + (2 × 1) + … + (1 × 3) = 38个缺失值。最后一行给出了每个变量中缺失值的数目。

2.2 图形探究缺失数据

虽然md.pattern()函数的表格输出非常简洁，但我通常觉得用图形展示模式更为清晰。VIM包提供了大量能可视化数据集中缺失值模式的函数，本节我们将学习其中几个：aggr()、matrixplot()和scattMiss()。aggr()函数不仅绘制每个变量的缺失值数，还绘制每个变量组合的缺失值数。

2.2.1 例1：使用函数aggr()函数绘图。

    library("VIM")  
    aggr(sleep,prop=FALSE,numbers=TRUE)
    aggr(sleep, prop = TRUE, numbers = TRUE)

上述代码的结果见下图。

（VIM包将会打开GUI界面，你可以关闭它；本章我们使用代码完成所有的工作。）可以看到，变量NonD有最大的缺失值数（14），有2个哺乳动物缺失了NonD、Dream和Sleep的评分。42个动物没有缺失值。

代码aggr(sleep, prop = TRUE, numbers = TRUE)将生成相同的图形，但用比例代替了计数。选项numbers = FALSE（默认）删去数值型标签。

2.2.2 例2：使用函数matrixplot()函数绘图。

    matrixplot(sleep)

matrixplot()函数可生成展示每个实例数据的图形。matrixplot(sleep)的图形见下图。

此处，数值型数据被重新转换到[0, 1]区间，并用灰度来表示大小：浅色表示值小，深色表示值大。默认缺失值为红色。

该图形可以进行交互，单击一列将会按其对应的变量重排矩阵。图中的行便按BodyWgt降序排列。通过矩阵图，你可以看出某些变量的缺失值模式是否与其他变量的真实值有关联。此图中可以看到，无缺失值的睡眠变量（Dream、NonD和Sleep）对应着较小的体重（BodyWgt）或脑重（BrainWgt）。

2.2.3 例3：使用函数marginplot()函数绘图。

marginplot()函数可生成一幅散点图，在图形边界展示两个变量的缺失值信息。以做梦时长与哺乳动物妊娠期时长的关系为例，来看下列代码：它的生成图形见下图。参数pch和col为可选项，控制着绘图符号和使用的颜色。

    library("VIM")  
    marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))

图形的主体是Gest和Dream（两变量数据都完整）的散点图。左边界的箱线图展示的是包含（深灰色）与不包含（红色）Gest值的Dream变量分布。注意，在灰度图上红色是更深的阴影。四个红色的点代表着缺失了Gest得分的Dream值。在底部边界上，Gest和Dream间的关系反过来了。可以看到，妊娠期和做梦时长呈负相关，缺失妊娠期数据时动物的做梦时长一般更长。两个变量均有缺失值的观测个数在两边界交叉处（左下角）用蓝色输出。VIM包有许多图形可以帮助你理解缺失数据在数据集中的模式，包括用散点图、箱线图、直方图、散点图矩阵、平行坐标图、轴须图和气泡图来展示缺失值的信息，因此这个包很值得探索。

2.3 用相关性探索缺失值

影子矩阵：用指示变量替代数据集中的数据（1表示缺失，0表示存在），这样生成的矩阵有时称作影子矩阵。

求这些指示变量间和它们与初始（可观测）变量间的相关性，有且于观察哪些变量常一起缺失，以及分析变量“缺失”与其他变量间的关系。

    head(sleep)
    str(sleep)
    x<-as.data.frame(abs(is.na(sleep)))
    head(sleep,n=5)
    head(x,n=5)
    y<-x[which(sd(x)>0)]
    cor(y)
    cor(sleep,y,use="pairwise.complete.obs")

3. 理解缺失值数据的来由和影响

识别缺失数据的数目、分布和模式有两个目的：

（1）分析生成缺失数据的潜在机制；

（2）评价缺失数据对回答实质性问题的影响。

即：

（1）缺失数据的比例有多大？

（2）缺失数据是否集中在少数几个变量上，抑或广泛存在？

（3）缺失是随机产生的吗？

（4）缺失数据间的相关性或与可观测数据间的相关性，是否可以表明产生缺失值的机制呢？

若缺失数据集中在几个相对不太重要的变量上，则可以删除这些变量，然后再进行正常的数据分析；

若有一小部分数据随机分布在整个数据集中（MCAR），则可以分析数据完整的实例，这样仍可得到可靠有效的结果；

若以假定数据是MCAR或MAR，则可以应用多重插补法来获得有铲的结论。

若数据是NMAR，则需要借助专门的方法，收集新数据，或加入一个相对更容易、更有收益的行业。

4. 处理缺失值完整实例分析

4.1 行删除

函数complete.cases（）、na.omit（）可用来存储没有缺失值的数据框或矩阵形式的实例（行）：

    # code1
    newdata<-mydata[complete.cases(mydata),]  
    newdata<-na.omit(mydata)  
    
    # code2
    options(digits=1)  
    cor(na.omit(sleep))  
    cor(sleep,use="complete.obs")  
    fit<-lm(Dream~Span+Gest,data=na.omit(sleep))  
    summary(fit)

4.2 多重插补

多重插补（MI）是一种基于重复模拟的处理缺失值的方法。

MI从一个包含缺失值的数据集中生成一组完整的数据集。每个模拟数据集中，缺失数据将使用蒙特卡洛方法来填补。

此时，标准的统计方法便可应用到每个模拟的数据集上，通过组合输出结果给出估计的结果，以及引入缺失值时的置信敬意。

可用到的包Amelia、mice和mi包

mice() 函数首先从一个包含缺失数据的数据框开始，然后返回一个包含多个完整数据集的对象。每个完整数据集都是通过对原始数据框中的缺失数据进行插而生成的。

with() 函数可依次对每个完整数据集应用统计模型

pool() 函数将这些单独的分析结果整合为一组结果。

最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。

基于mice包的分析通常符合以下分析过程：

    # 示例说明code 
    library(mice)
    imp<-mice(mydata,m)  
    fit<-with(imp,analysis)  
    pooled<-pool(fit)  
    summary(pooled)
    # mydata是一个饮食缺失值的矩阵或数据框； 
    # imp是一个包含m个插补数据集的列表对象，同时还含有完成插补过程的信息，默认的m=5 
    # analysis是一个表达式对象，用来设定应用于m个插补的统计分析方法。方法包括做线回归模型的lm()函数、做广义线性模型的glm()函数、做广义可加模型的gam()、及做负二项模型的nbrm()函数。
    # fit是一个包含m个单独统计分析结果的列表对象； 
    # pooled是一个包含这m个统计分析平均结果的列表对象。

具体例子实现过程

    > library(mice)
    > data(sleep,package="VIM")  
    > imp <- mice(sleep,seed=1234)  
    
     iter imp variable
      1   1  NonD  Dream  Sleep  Span  Gest
      1   2  NonD  Dream  Sleep  Span  Gest
      1   3  NonD  Dream  Sleep  Span  Gest
      1   4  NonD  Dream  Sleep  Span  Gest
      1   5  NonD  Dream  Sleep  Span  Gest
      2   1  NonD  Dream  Sleep  Span  Gest
      2   2  NonD  Dream  Sleep  Span  Gest
      2   3  NonD  Dream  Sleep  Span  Gest
      2   4  NonD  Dream  Sleep  Span  Gest
      2   5  NonD  Dream  Sleep  Span  Gest
      3   1  NonD  Dream  Sleep  Span  Gest
      3   2  NonD  Dream  Sleep  Span  Gest
      3   3  NonD  Dream  Sleep  Span  Gest
      3   4  NonD  Dream  Sleep  Span  Gest
      3   5  NonD  Dream  Sleep  Span  Gest
      4   1  NonD  Dream  Sleep  Span  Gest
      4   2  NonD  Dream  Sleep  Span  Gest
      4   3  NonD  Dream  Sleep  Span  Gest
      4   4  NonD  Dream  Sleep  Span  Gest
      4   5  NonD  Dream  Sleep  Span  Gest
      5   1  NonD  Dream  Sleep  Span  Gest
      5   2  NonD  Dream  Sleep  Span  Gest
      5   3  NonD  Dream  Sleep  Span  Gest
      5   4  NonD  Dream  Sleep  Span  Gest
      5   5  NonD  Dream  Sleep  Span  Gest
    > fit <- with(imp,lm(Dream~Span+Gest))  
    > pooled <- pool(fit)  
    > summary(pooled) 
                   est    se    t df Pr(>|t|)  lo 95  hi 95 nmis  fmi lambda
    (Intercept)  2.546 0.255 10.0 52    1e-13  2.035  3.057   NA 0.09   0.05
    Span        -0.005 0.012 -0.4 52    7e-01 -0.029  0.020    4 0.09   0.05
    Gest        -0.004 0.001 -2.7 56    1e-02 -0.007 -0.001    4 0.05   0.02
    > imp
    Multiply imputed data set
    Call:
    mice(data = sleep, seed = 1234)
    Number of multiple imputations:  5
    Missing cells per column:
     BodyWgt BrainWgt     NonD    Dream    Sleep     Span     Gest     Pred      Exp   Danger 
           0        0       14       12        4        4        4        0        0        0 
    Imputation methods:
     BodyWgt BrainWgt     NonD    Dream    Sleep     Span     Gest     Pred      Exp   Danger 
          ""       ""    "pmm"    "pmm"    "pmm"    "pmm"    "pmm"       ""       ""       "" 
    VisitSequence:
     NonD Dream Sleep  Span  Gest 
        3     4     5     6     7 
    PredictorMatrix:
             BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger
    BodyWgt        0        0    0     0     0    0    0    0   0      0
    BrainWgt       0        0    0     0     0    0    0    0   0      0
    NonD           1        1    0     1     1    1    1    1   1      1
    Dream          1        1    1     0     1    1    1    1   1      1
    Sleep          1        1    1     1     0    1    1    1   1      1
    Span           1        1    1     1     1    0    1    1   1      1
    Gest           1        1    1     1     1    1    0    1   1      1
    Pred           0        0    0     0     0    0    0    0   0      0
    Exp            0        0    0     0     0    0    0    0   0      0
    Danger         0        0    0     0     0    0    0    0   0      0
    Random generator seed value:  1234 
    > imp$imp$Dream  
         1   2   3   4   5
    1  1.0 0.5 0.5 0.5 0.3
    3  2.6 2.1 1.5 1.8 1.3
    4  3.4 3.1 3.4 1.2 3.4
    14 0.3 0.5 0.5 0.3 1.2
    24 1.8 1.3 3.6 0.9 5.6
    26 2.3 3.1 2.0 2.6 2.1
    30 1.2 0.3 3.4 2.6 2.3
    31 3.4 0.5 0.6 1.0 0.5
    47 0.5 1.5 1.5 2.2 3.4
    53 0.3 0.5 0.5 0.5 0.6
    55 0.5 0.9 2.6 2.7 2.4
    62 1.0 2.1 0.5 3.9 3.6
    > 
    > 
    > # 利用complete（）函数可观察m个插补数据集中的任意一个，格式为：complete(imp,action=#)
    > # eg:
    > 
    > dataset3<-complete(imp,action=3)  
    > dataset3
       BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger
    1    7e+03    6e+03    2   0.5     3   39  645    3   5      3
    2    1e+00    7e+00    6   2.0     8    4   42    3   1      3
    3    3e+00    4e+01   11   1.5    12   14   60    1   1      1
    4    9e-01    6e+00   13   3.4    16    2   25    5   2      3
    5    3e+03    5e+03    2   1.8     4   69  624    3   5      4
    6    1e+01    2e+02    9   0.7    10   27  180    4   4      4
    7    2e-02    3e-01   16   3.9    20   19   35    1   1      1
    8    2e+02    2e+02    5   1.0     6   30  392    4   5      4
    9    3e+00    3e+01   11   3.6    14   28   63    1   2      1
    10   5e+01    4e+02    8   1.4    10   50  230    1   1      1
    11   4e-01    6e+00   11   1.5    12    7  112    5   4      4
    12   5e+02    4e+02    3   0.7     4   30  281    5   5      5
    13   6e-01    2e+00    8   2.7    10   18   46    2   1      2
    14   2e+02    4e+02    3   0.5     3   40  365    5   5      5
    15   7e-02    1e+00    6   2.1     8    4   42    1   1      1
    16   3e+00    2e+01    9   0.0     9   50   28    2   2      2
    17   8e-01    4e+00    7   4.1    11    6   42    2   2      2
    18   2e-01    5e+00   10   1.2    11   10  120    2   2      2
    19   1e+00    2e+01    5   1.3     6   34   28    1   2      1
    20   6e+01    8e+01   12   6.1    18    7   21    1   1      1
    21   5e+02    7e+02   11   0.3    11   28  400    5   5      5
    22   3e+01    1e+02    3   0.5     4   20  148    5   5      5
    23   1e-01    1e+00   11   3.4    14    4   16    3   1      2
    24   2e+02    4e+02    8   3.6    12   39  252    1   4      1
    25   8e+01    3e+02    5   1.5     6   41  310    1   3      1
    26   4e+01    1e+02   11   2.0    13   16   63    1   1      1
    27   1e-01    4e+00   10   3.4    14    9   28    5   1      3
    28   1e+00    6e+00    7   0.8     8    8   68    5   3      4
    29   5e+02    7e+02    2   0.8     3   46  336    5   5      5
    30   1e+02    2e+02    7   3.4    11   22  100    1   1      1
    31   4e+01    6e+01    3   0.6     4   16   33    3   5      4
    32   5e-03    1e-01    8   1.4     9    3   22    5   2      4
    33   1e-02    2e-01   18   2.0    20   24   50    1   1      1
    34   6e+01    1e+03    6   1.9     8  100  267    1   1      1
    35   1e-01    3e+00    8   2.4    11   13   30    2   1      1
    36   1e+00    8e+00    8   2.8    11    4   45    3   1      3
    37   2e-02    4e-01   12   1.3    13    3   19    4   1      3
    38   5e-02    3e-01   11   2.0    13    2   30    4   1      3
    39   2e+00    6e+00   14   5.6    19    5   12    2   1      1
    40   4e+00    1e+01   14   3.1    17    6  120    2   1      1
    41   2e+02    5e+02    8   1.0     8   24  440    5   5      5
    42   5e-01    2e+01   15   1.8    17   12  140    2   2      2
    43   1e+01    1e+02   10   0.9    11   20  170    4   4      4
    44   2e+00    1e+01   12   1.8    14   13   17    2   1      2
    45   2e+02    2e+02    6   1.9     8   27  115    4   4      4
    46   2e+00    1e+01    8   0.9     8   18   31    5   5      5
    47   4e+00    4e+01   11   1.5    12   14   63    2   2      2
    48   3e-01    2e+00   11   2.6    13    5   21    3   1      3
    49   4e+00    5e+01    7   2.4    10   10   52    1   1      1
    50   7e+00    2e+02    8   1.2    10   29  164    2   3      2
    51   8e-01    1e+01    6   0.9     7    7  225    2   2      2
    52   4e+00    2e+01    5   0.5     5    6  225    3   2      3
    53   1e+01    1e+02    2   0.5     3   17  150    5   5      5
    54   6e+01    2e+02    3   0.6     4   20  151    5   5      5
    55   1e+00    1e+01    8   2.6    11   13   90    2   2      2
    56   6e-02    1e+00    8   2.2    10    4  100    3   1      2
    57   9e-01    3e+00   11   2.3    13    4   60    2   1      2
    58   2e+00    1e+01    5   0.5     5    8  200    3   1      3
    59   1e-01    2e+00   13   2.6    16    2   46    3   2      2
    60   4e+00    6e+01   10   0.6    10   24  210    4   3      4
    61   4e+00    4e+00   13   6.6    19    3   14    2   1      1
    62   4e+00    2e+01   18   0.5    19   13   38    3   1      1

5. 处理缺失值的其他方法

处理缺失数据的专业方法
软件包	描述
Hmisc	包含多种函数，支持简单插补、多重插补和典型变量插补
mvnmle	对多元正态颁数据中缺失值的最大似然估计
cat	对数线性模型中多元类别型变量的多重插补
arrayImpute\arraryMissPattern、SeqKnn	处理微阵列缺失值数据的实用函数
longitudinalData	相关的函数列表，比如对时间序列缺失值进行插补的一系列函数
kmi	处理生存分析缺失值的Kaplan-Meier多重插补
mix	一般位置模型中混合类别型和连续型数据的多重插补
pan	多元面板数据或聚类的多重插补

转自

https://www.cnblogs.com/cloudtj/articles/5512335.html

【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
R语言舆情监控与可视化统计 q56731523 r语言开发语言爬虫
用R语言进行舆情监控并且做到可视化，对我来说，总体难度还算可以，主要是舆情监控通常涉及文本数据的收集（如社交媒体、新闻评论），然后进行情感分析，最后通过图表展示结果。步骤看似简单实则一点也不简单。以下就是我使用R语言进行舆情监控和可视化统计的完整示例。该方案包括文本情感分析和时间趋势可视化：#加载必要的包library(tidyverse)#数据处理和可视化library(tidytext)#文本
R 语言数据框连接操作详解：join 与 merge 方法对比晚风keeper r语言开发语言学习笔记学习方法
在数据分析工作中，我们经常需要将多个数据集按照某些条件进行合并。R语言提供了多种数据框连接方法，本文将详细介绍如何使用dplyr包的join系列函数和基础R的merge函数进行数据框的各种连接操作，并对比它们之间的差异。一、数据框连接操作概述数据框连接是将两个或多个数据框按照某些共同的列或条件组合成一个新的数据框的过程。常见的连接类型包括：左连接（LeftJoin）：保留左数据框的所有行，匹配右数
Readr 项目安装与配置指南芮奕滢Kirby
Readr项目安装与配置指南readr项目地址:https://gitcode.com/gh_mirrors/rea/readr1.项目基础介绍readr是一个R语言的开源项目，由HadleyWickham创建和维护。该项目的主要目的是提供一种快速且友好的方式来读取分隔文件（如CSV和TSV）中的矩形数据。readr能够解析多种数据类型，并在解析过程中提供详细的错误报告，以便用户能够快速识别和解决
4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析 MD分析用R探索医药数据科学 r语言-4.2.1 r语言功效曲线单次精确模拟分析
在医学研究尤其是糖尿病等干预性试验中，精准的实验设计与功效分析是确保研究价值的关键。R语言为重复测量方差分析（ANOVA）提供了强大工具，从实验设计构建、单次精确模拟分析，到功效曲线可视化，覆盖研究全流程。本文结合糖尿病胰岛素治疗试验案例，深度拆解函数的应用逻辑，手把手教你用数据驱动实验设计，让“样本量规划”“效应检测能力”从抽象概念变为可操作、可视化的研究支撑。一、相关函数的介绍在医学研究中，实
R语言如何接入实时行情接口
目录1.安装必要的R包2.导入库3.连接WebSocket4.处理连接成功后的操作5.处理接收到的消息6.处理连接关闭和错误7.发送心跳数据8.自动重连机制9.启动连接和重连总结在数据分析和金融研究中，实时行情数据的获取至关重要，但市面上的实时行情接口并不多，本文将一步步教你如何使用R语言接入实时行情接口，获取来自WebSocket的实时数据。1.安装必要的R包首先，确保你已安装了以下R包，用于处
【R语言】Can‘t subset elements that don‘t exist. 新子y r语言开发语言 excel
Errorin`select()`:ℹInargument:`all_of(label_col)`.Causedbyerrorin`all_of()`:!Can'tsubsetelementsthatdon'texist.✖Element`Label`doesn'texist.Run`rlang::last_trace()`toseewheretheerroroccurred.原文中文解释涉及关键
r读取文件夹下的所有csv文件_R语言读取文件夹下多个文件并进行合并数据生成总数据文件... seiji morisako r读取文件夹下的所有csv文件
在流水化办公中，通常有格式统一的表格文件产生，但是到最后要将这一堆表格文件整合为大表却很揪心，累断手，如何用R语言进行一次性导入整合呢？假设我们将D:/input文件夹作为需要导入的表格的存放点，文件夹内所有文件均为此次需要导入数据，那么可以用以下程序进行操作setwd("D:/")#设定工作目录为D盘a=list.files("input")#list.files命令将input文件夹下所有文件
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
结构方程模型（SEM）高阶应用系列梦想的初衷~ 结构方程生态环境 python 开发语言结构方程
结构方程模型（StructuralEquationModeling）是分析多变量间因果关系的利器，在众多学科领域具有巨大应用潜力。我们前期推出的《基于R语言结构方程模型》通过结构方程原理介绍、结构方程全局和局域估计、模型构建和调整、潜变量分析、复合变量分析及结构方程贝叶斯方法实现等一系列专题的介绍及大量案例讲解，由浅入深地系统介绍了结构方程模型的建立、拟合、评估、筛选和结果展示全过程，得到学员广泛
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
【数据分析】R语言基于虚弱指数的心血管疾病风险评估生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图其他1其他2其他3其他4总结系统信息介绍生存分析是医学和生物统计学中常用的方法，用于研究事件（如疾病发生、死亡等）发生的时间和相关影响因素。本文介绍了一种基于R语言的生存分析方法，用于评估虚弱指数（FrailtyIndex,FI）对心血管疾病（CVD）发生风险的影响。通过这
【科研绘图系列】R语言绘制论文组合图（multiple plots）生信学习者1 SCI科研绘图系列 (2025版)r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载函数数据预处理画图1画图2画图3画图4画图5画图6总结系统信息介绍这段代码是一个用于生成多种复杂数据可视化的R脚本，主要利用ggplot2、tidyverse和自定义函数来处理和展示与小鼠实验相关的数据。它通过读取、处理数据，并生成多种图形，旨在清晰地展示不同实验组的小鼠在不同时间点的抗体浓度和
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
R语言学习笔记—删除对象 w1149033842 R语言
1.删除环境中的对象Arm(A)2.删除环境中的所有对象rm(list=is())3.删除除了A和B以外的所有对象allobj<-is()rm(list=allobj[which(allobj!="A"&allobj!="B")])
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
R语言开发记录，一 [email protected] R语言 r语言开发语言
1.清理环境rm(list=ls())gc()rm(list=ls())作用：删除当前R工作环境中所有的对象（变量、函数、数据框等）。解释：ls()：列出当前环境中所有对象的名字。list=ls()：将这些名字作为一个列表传给rm()函数。rm()：移除这些对象。效果：相当于“清空内存”，让工作空间恢复到干净状态。gc()作用：手动触发垃圾回收（garbagecollection）。效果：释放R不
从零到精通：Linux上的Conda环境详细教程
第一章：Conda简介Conda的定义Conda是一个开源的包管理系统和环境管理系统，可以在多个平台上安装、运行和更新软件包和依赖项。Conda最初是为Python和R语言的数据科学包创建的，但现在支持多种编程语言和工具。Conda的主要功能和优势包管理：Conda能够自动处理包的依赖关系，确保每个包所需的库和工具都被正确安装。它支持从各种渠道安装包，如CondaForge和Anaconda官方仓
R语言绘制上下双向分布柱状图
话不多说,直接上干货library(ggplot2)library(tidyr)set.seed(123)#设置随机种子保证可重现df<-data.frame(Type=rep(letters[1:5],each=5),Sample=paste("sample",rep(1:5,times=5),sep=""),Up=round(runif(25,min=0,max=100),1),Down=ro
R语言学习笔记之十
摘要:仅用于记录R语言学习过程：内容提要：描述性统计；t检验；数据转换；方差分析；卡方检验；回归分析与模型诊断；生存分析；COX回归写在正文前的话，关于基础知识，此篇为终结篇，笔记来自医学方的课程，仅用于学习R的过程。正文：描述性统计n如何去生成table1用table()函数，快速汇总频数u生成四格表：table(行名，列名)>table(tips$sex,tips$smoker)NoYesFe
Rstudio：强大的R语言集成开发环境（IDE）简说基因-专业生信合作伙伴 r语言开发语言
Rstudio应该是R语言使用的标配，尽管Rstudio的母公司Posit推出了新一代的集成开发环境Positron，但其还处于开发阶段。作为用户不妨让其成熟后再使用，现阶段还是Rstudio更稳定。如果你在生物信息学或统计学领域工作，R语言几乎是必备的工具之一。而RStudio，作为R语言最流行的集成开发环境（IDE），为数据分析、可视化和编程提供了非常友好的平台。今天我们来介绍一下RStudi
R语言程序包开发与应用溪水边小屋
本文还有配套的精品资源，点击获取简介：R语言程序包是扩展功能的关键，提供了统计分析、数据可视化、机器学习等领域的丰富开源库。程序包通常由开发者创建，包含新函数、数据集、绘图方法等，以应对R版本更新导致的函数限制或行为变化。本文介绍了R程序包的构建过程，如编写函数、创建DESCRIPTION和NAMESPACE文件、编写帮助文档以及进行单元测试。同时，探讨了如何使用包管理工具安装和加载R程序包，以及
《R循环：深度解析与高效使用技巧》沐知全栈开发开发语言
《R循环：深度解析与高效使用技巧》引言R语言作为一种功能强大的统计计算和图形显示语言，被广泛应用于科研、数据分析、金融等领域。R循环是R语言中的核心概念之一，对于提高编程效率、处理复杂数据至关重要。本文将深度解析R循环，并介绍高效使用技巧，帮助读者更好地掌握R语言。一、R循环概述1.1什么是R循环R循环是指在R语言中，重复执行某个操作或代码段的过程。R循环包括for循环、while循环和repea
R语言与C语言混合编程：在R语言中调用C语言函数数据探索 r语言 c语言开发语言 R语言
R语言与C语言混合编程：在R语言中调用C语言函数介绍：R语言是一种用于统计分析和数据可视化的高级编程语言，而C语言是一种通用的、强大的编程语言。在某些情况下，我们可能需要在R语言中调用C语言函数以提高性能或实现特定的功能。本文将介绍如何在R语言中调用C语言函数的方法，并提供相应的源代码示例。步骤：为了在R语言中调用C语言函数，我们需要执行以下步骤：编写C语言函数：首先，我们需要编写我们想要在R中调
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include