走在码农路上的医学狗

使用R进行描述性统计分析（连续性变量）

对于描述性统计来说，R可以实现的方法有很多，基础自带的有summary()函数，还有其他packages，如Hmisc包，pastecs包，psych包提供了计算更多内容的函数。

基础函数

在R中，我们经常使用summary()函数来计算最大值、最小值、四分位数、均值、频数等等。

data(mtcars)
myvars <- c("mpg", "hp", "wt")
summary(mtcars[myvars])
## --- output------
## NOT RUN:
> summary(mtcars[myvars])
  mpg              hp              wt       
 Min.   :10.40   Min.   : 52.0   Min.   :1.513  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
 Median :19.20   Median :123.0   Median :3.325  
 Mean   :20.09   Mean   :146.7   Mean   :3.217  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
 Max.   :33.90   Max.   :335.0   Max.   :5.424

一般而言，我们使用summary()函数就可以得到我们想要的描述性统计量了。不过summary()函数提供的统计量较少，有时候满足不了我们的需求，那么我们可以使用其他包中提供的函数来进行计算。

其他方法

Hmisc包

Hmisc包是一个包含了很多数据分析函数的包，包括样本量大小的计算，图标绘制，字符串操作，输出为LaTeX及HTML格式的文档等等。在这里可以查看更多详细的信息：

Contains many functions useful for data analysis, high-level graphics, utility operations, functions for computing sample size and power, importing and annotating datasets, imputing missing values, advanced table making, variable clustering, character string manipulation, conversion of R objects to LaTeX and html code, and recoding variables.
在Hmisc包中的describe()函数提供了数量，缺失值，唯一值的数量，平均数，分位数，**基尼平均值（Geni mean difference, Gmd）**以及五个最大值和最小值：

library(Hmisc)
describe(mtcars[myvars])
## --- output---
## NOT RUN
> describe(mtcars[myvars])
mtcars[myvars] 

 3  Variables      32  Observations
--------------------------------------------------------------------------------
mpg 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       25    0.999    20.09    6.796    12.00    14.34 
     .25      .50      .75      .90      .95 
   15.43    19.20    22.80    30.09    31.30 

lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9
--------------------------------------------------------------------------------
hp 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       22    0.997    146.7    77.04    63.65    66.00 
     .25      .50      .75      .90      .95 
   96.50   123.00   180.00   243.50   253.55 

lowest :  52  62  65  66  91, highest: 215 230 245 264 335
--------------------------------------------------------------------------------
wt 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       29    0.999    3.217    1.089    1.736    1.956 
     .25      .50      .75      .90      .95 
   2.581    3.325    3.610    4.048    5.293 

lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424
--------------------------------------------------------------------------------

关于基尼平均值是什么，可以看这里的介绍了解更多相关的内容。

pastecs包

有时候我们想要知道标准差，值域，方差，平均数的95%置信区间，是否符合正态等等结果，那么可能上边的提供的方法无法满足我们的需求。那么可以使用pastecs包中的stat.desc()函数来计算相关统计量。这个函数将返还一个数据框，这种格式的数据或许比起列表更加容易后续的输出和操作。stat.desc()函数的主要使用形式是：stat.desc(x,basic = TRUE,desc=TRUE,norm=FALSE,p=0.95)，其中：

x：一个数据框对象
basic：默认为TRUE，计算其中所有值、空值、缺失值的数量，以及最小值、最大值、值域，还有总和
desc：默认为TRUE，计算中位数、平均数、平均数的标准误、平均数95%置信区间、方差、标准差以及变异系数
norm：默认为FALSE，计算正态分布统计量，包括偏度和峰度以及它们的统计显著差异和Shapiro-Wilk正态检验结果

library(pastecs)
stat.desc(mtcars[myvars], norm = TRUE, p = 0.95)
## ---output---
## NOT RUN
> stat.desc(mtcars[myvars], norm = TRUE, p = 0.95)
                     mpg            hp           wt
nbr.val       32.0000000   32.00000000  32.00000000
nbr.null       0.0000000    0.00000000   0.00000000
nbr.na         0.0000000    0.00000000   0.00000000
min           10.4000000   52.00000000   1.51300000
max           33.9000000  335.00000000   5.42400000
range         23.5000000  283.00000000   3.91100000
sum          642.9000000 4694.00000000 102.95200000
median        19.2000000  123.00000000   3.32500000
mean          20.0906250  146.68750000   3.21725000
SE.mean        1.0654240   12.12031731   0.17296847
CI.mean.0.95   2.1729465   24.71955013   0.35277153
var           36.3241028 4700.86693548   0.95737897
std.dev        6.0269481   68.56286849   0.97845744
coef.var       0.2999881    0.46740771   0.30412851
skewness       0.6106550    0.72602366   0.42314646
skew.2SE       0.7366922    0.87587259   0.51048252
kurtosis      -0.3727660   -0.13555112  -0.02271075
kurt.2SE      -0.2302812   -0.08373853  -0.01402987
normtest.W     0.9475647    0.93341934   0.94325772
normtest.p     0.1228814    0.04880824   0.09265499

psych包

在psych包中也提供了一个describe()函数来计算一般统计量，它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值，绝对中位数、最小值、最大值、值域、偏度、峰度和平均值的标准误：

library(psych)
describe(mtcars[myvars])
## ---output ---
## NOT RUN
> describe(mtcars[myvars])
    vars  n   mean    sd median trimmed   mad   min    max  range skew kurtosis
mpg    1 32  20.09  6.03  19.20   19.70  5.41 10.40  33.90  23.50 0.61    -0.37
hp     2 32 146.69 68.56 123.00  141.19 77.10 52.00 335.00 283.00 0.73    -0.14
wt     3 32   3.22  0.98   3.33    3.15  0.77  1.51   5.42   3.91 0.42    -0.02
       se
mpg  1.07
hp  12.12
wt   0.17

利用`sapply()`函数计算描述性统计量

如果对于上述方法提供的结果还不是很满意，那么怎么办？在这种情况下，我们可以考虑使用sapply()函数来实现我们自定义的统计学描述。关于sapply()函数，大家是否会回想起以前我们使用的那个lapply()函数呢？通过查询文档（使用?sapply）我们可以看到以下的一些信息：

‘lapply’ returns a list of the same length as ‘X’, each element of which is the result of applying ‘FUN’ to the corresponding element of ‘X’.
‘sapply’ is a user-friendly version and wrapper of ‘lapply’ by default returning a vector, matrix or, if ‘simplify = “array”’, an array if appropriate, by applying ‘simplify2array()’. ‘sapply(x, f, simplify = FALSE, USE.NAMES = FALSE)’ is the same as ‘lapply(x, f)’.

这些信息有些难以阅读，但是初步看来，这俩个函数差不多，但是sapply()函数是一个用户友好版本，而且封装了lapply()函数，使其返还成向量，矩阵或者数组。不用在意那么多细节，我们看看例子也许就能明白了。
首先，我们需要一个自建的函数来满足我们所需要的统计量：

## -------------------------bulid a func------------------------
mystats <- function(x, na.omit = FALSE){
    if(na.omit)
        x <- x[!is.na(x)] # exculde the na data
    m <- mean(x)
    n <- length(x)
    s <- sd(x)
    skew <- sum((x - m) ^ 3 / s ^ 3) / n # Skewness 
    kurt <- sum((x - m) ^ 4 / s ^ 4) / n # Kurtosis
    return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}

在这里，我们创建了一个计算均数，数量，标准差，偏度（skewness），峰度（kurtosis）的统计量。接下来我们要对每一个变量进行这些统计量的计算：

sapply(mtcars[myvars], mystats)
## ---output
## NOT RUN
> sapply(mtcars[myvars], mystats)
               mpg          hp         wt
n        32.000000  32.0000000 32.0000000
mean     20.090625 146.6875000  3.2172500
stdev     6.026948  68.5628685  0.9784574
skew      0.610655   0.7260237  0.4231465
kurtosis  2.627234   2.8644489  2.9772892

接下来，我们想验证下对于sapply()函数的理解是否正确，于是打算查看下sapply()到底返还的是什么类型的对象。想要查看他的结构，首先我们需要把对象进行保存，然后运用str()函数去查看：

test <- sapply(mtcars[myvars], mystats)
str(test)
## ---output---
## NOT RUN
> str(test)
 num [1:5, 1:3] 32 20.091 6.027 0.611 2.627 ...
 - attr(*, "dimnames")=List of 2
  ..$ : chr [1:5] "n" "mean" "stdev" "skew" ...
  ..$ : chr [1:3] "mpg" "hp" "wt"

这里我们可以看到他的结构是个二维的5*3的表格，其中所有的数据是num。如果熟悉R语言的数据结构，那么二维的，且每一个元素都相同的表格我们把他定义为矩阵（matrix）。当然我们可以使用is.matrix()进行验证：

is.matrix(test)
## ---output---
## NOT RUN
> is.matrix(test)
[1] TRUE

由此，我们可以确认对于sapply()函数的理解大致是准确的：

sapply()函数是一个用户友好版本，而且封装了lapply()函数，使其返还成向量，矩阵或者数组。

分组计算

有时候，我们需要的不是计算总体的统计量，而是要计算不同组别的统计量，那么上述的一些方法就不太适用了。我们需要一些其他的方法来实现这个需求。
我们可以使用R自带的aggregate()函数来计算分组的统计量：

aggregate(mtcars[myvars], by = list(am = mtcars$am), mean)
## ---output---
## NOT RUN
> aggregate(mtcars[myvars], by = list(am = mtcars$am), mean)
  am      mpg       hp       wt
1  0 17.14737 160.2632 3.768895
2  1 24.39231 126.8462 2.411000

这里我们分别计算了自动挡（am = 1）组和手动挡（am = 0）组的mpg，hp，wt的均数。aggregate()函数只能一次计算一个统计量，当需要计算多个统计量的时候需要重复使用，比较麻烦。因此我们需要用其他方式来实现一次多个统计量的计算。

dstatas <- function(x) sapply(x, mystats)
by(mtcars[myvars], mtcars$am, dstatas)
## ---output---
## NOT RUN
> by(mtcars[myvars], mtcars$am, dstatas)
mtcars$am: 0
                 mpg           hp         wt
n        19.00000000  19.00000000 19.0000000
mean     17.14736842 160.26315789  3.7688947
stdev     3.83396639  53.90819573  0.7774001
skew      0.01395038  -0.01422519  0.9759294
kurtosis  2.19682174   1.79030267  3.1415676
------------------------------------------------------------ 
mtcars$am: 1
                 mpg         hp         wt
n        13.00000000  13.000000 13.0000000
mean     24.39230769 126.846154  2.4110000
stdev     6.16650381  84.062324  0.6169816
skew      0.05256118   1.359886  0.2103128
kurtosis  1.54464800   3.563463  1.8262642

在这里，dstatas <- function(x) sapply(x, mystats)使用了简易的函数写法。使用by()将数据集分为自动挡和手动挡两组，分别使用函数计算出各个统计量。
除了这种我们自建函数使用by()函数来进行分组的统计量以外，我们可以使用一些包里提供的方法来计算。
doBy包中的summaryBy()函数提供了分组计算的功能：

library(doBy)
summaryBy(mpg + hp + wt ~ am, data = mtcars, FUN = mystats)
## ---output---
## NOT RUN
> summaryBy(mpg + hp + wt ~ am, data = mtcars, FUN = mystats)
  am mpg.n mpg.mean mpg.stdev   mpg.skew mpg.kurtosis hp.n  hp.mean hp.stdev
1  0    19 17.14737  3.833966 0.01395038     2.196822   19 160.2632 53.90820
2  1    13 24.39231  6.166504 0.05256118     1.544648   13 126.8462 84.06232
      hp.skew hp.kurtosis wt.n  wt.mean  wt.stdev   wt.skew wt.kurtosis
1 -0.01422519    1.790303   19 3.768895 0.7774001 0.9759294    3.141568
2  1.35988586    3.563463   13 2.411000 0.6169816 0.2103128    1.826264

psych包中的describeBy()函数可计算和describe()相同的描述性统计量，按照一个或多个分组变量进行分层：

library(psych)
describeBy(mtcars[myvars], list(am = mtcars$am))
## ---output---
## NOT RUN
> describeBy(mtcars[myvars], list(am = mtcars$am))

 Descriptive statistics by group 
am: 0
    vars  n   mean    sd median trimmed   mad   min    max  range  skew
mpg    1 19  17.15  3.83  17.30   17.12  3.11 10.40  24.40  14.00  0.01
hp     2 19 160.26 53.91 175.00  161.06 77.10 62.00 245.00 183.00 -0.01
wt     3 19   3.77  0.78   3.52    3.75  0.45  2.46   5.42   2.96  0.98
    kurtosis    se
mpg    -0.80  0.88
hp     -1.21 12.37
wt      0.14  0.18
------------------------------------------------------------ 
am: 1
    vars  n   mean    sd median trimmed   mad   min    max  range skew kurtosis
mpg    1 13  24.39  6.17  22.80   24.38  6.67 15.00  33.90  18.90 0.05    -1.46
hp     2 13 126.85 84.06 109.00  114.73 63.75 52.00 335.00 283.00 1.36     0.56
wt     3 13   2.41  0.62   2.32    2.39  0.68  1.51   3.57   2.06 0.21    -1.17
       se
mpg  1.71
hp  23.31
wt   0.17

describeBy()函数不允许使用任意指定的函数，所以普适性低，但是胜在于不用自己编写函数，直接就能得出一般的描述性统计量。

输出一般统计描述的表格（连续性变量）

上述的这些方法我们很多都用于数据清洗完的一般性探索中。让我们更加清楚的认清数据的结构，分布等等，为后期的统计建模等等做准备。那么，我们常常见到的医学论文中Table 1的一般统计学描述该如何输出呢？这里我们主要想输出的是连续性变量的平均数和正负标准差（如果符合正态）或者是中位数和四分位数（如果不符合正态）。这里，我们使用自建函数来实现这部分功能：

## 该函数用于一般计数资料的统计学描述
## 当资料符合正态时，使用均数和方差
## 当资料不符合正态时，使用中位数和四分位
library(nortest)  # 载入进行正态性检验的包
gl.num.anysis <- function(varnames, source) {
          # 第一部分：进行正态性检验，得到p值
          value <- as.vector(as.matrix(source[, varnames]))
          pvalue <- lillie.test(value)$p.value
          # 判断p值是否大于0.05，如果大于0.05，为符合正态，并且用‘**’表示符合正态
          if (pvalue > 0.05) {
                    Mean <- round(mean(value), 4)
                    SD <- round(sd(value), 4)
                    Mean_value <- paste0(Mean,
                                         paste0('(',paste(Mean+SD,Mean-SD,
                                                          sep = '-'),')'),
                                         '**')
                    table <- data.frame('Characteristics' = varnames,
                                        'Value' = Mean_value)
                    return(table)
          }
          # 不符合正态就使用中位数和四分位数，并且用‘*’表示不符合正态
          else {
                    Median <- paste0(round(median(value),4),
                                     paste0('(',
                                            paste(round(quantile(value,probs=0.25),4),
                                                  round(quantile(value,probs=0.75),4),
                                                  sep = "-"),
                                            ')'),'*')
                    table <- data.frame('Characteristics' = varnames,
                                        'Value'  = Median)
                    return(table)
          }
}

这里，我不对这个自建函数作出过多的解释，主要原理就是首先判断是否符合正态，然后进行分别的运算，使用paste0()函数进行字符串的操作，黏贴。这里给出下我们示例计算的结果：

gl.num.anysis(varnames = myvars, source = mtcars)
## ---output---
## NOT RUN
> gl.num.anysis(varnames = myvars, source = mtcars)
  Characteristics            Value
1             mpg 19.2(3.69-95.5)*
2              hp 19.2(3.69-95.5)*
3              wt 19.2(3.69-95.5)*

注意，这里存在错误。因为我们在前面使用stat.desc()函数计算的时候，进行了正态性检验，发现：

> stat.desc(mtcars[myvars], norm = TRUE, p = 0.95)
                     mpg            hp           wt
normtest.p     0.1228814    0.04880824   0.09265499

可以看到，mpg和wt是符合正态的，为什么在我们上边的结果却判断为了不符合正态，而且每一个值都是19.2。这里的主要原因是函数中的第二步：value <- as.vector(as.matrix(source[, varnames]))。
这一步将提取出一个变量的数据，并且转换为向量，如果我们使用多个变量，并将其转化为向量，我们会得到这样的结果：

as.vector(as.matrix(mtcars[, myvars]))
## ---output---
## NOT RUN
> as.vector(as.matrix(mtcars[, myvars]))
 [1]  21.000  21.000  22.800  21.400  18.700  18.100  14.300  24.400  22.800
[10]  19.200  17.800  16.400  17.300  15.200  10.400  10.400  14.700  32.400
[19]  30.400  33.900  21.500  15.500  15.200  13.300  19.200  27.300  26.000
[28]  30.400  15.800  19.700  15.000  21.400 110.000 110.000  93.000 110.000
[37] 175.000 105.000 245.000  62.000  95.000 123.000 123.000 180.000 180.000
[46] 180.000 205.000 215.000 230.000  66.000  52.000  65.000  97.000 150.000
[55] 150.000 245.000 175.000  66.000  91.000 113.000 264.000 175.000 335.000
[64] 109.000   2.620   2.875   2.320   3.215   3.440   3.460   3.570   3.190
[73]   3.150   3.440   3.440   4.070   3.730   3.780   5.250   5.424   5.345
[82]   2.200   1.615   1.835   2.465   3.520   3.435   3.840   3.845   1.935
[91]   2.140   1.513   3.170   2.770   3.570   2.780

所有三个变量全部转换为了一个向量！这显然会得到一个错误的结果。
那么我们应该怎么做？
正确的做法应该是让每一个变量运行一遍这个函数，这里我们将使用我们的老朋友lapply()函数来解决：

library(plyr)
ldply(lapply(myvars, gl.num.anysis, mtcars))
## ---output---
## NOT RUN
> ldply(lapply(myvars, gl.num.anysis, mtcars))
  Characteristics                      Value
1             mpg 20.0906(26.1175-14.0637)**
2              hp             123(96.5-180)*
3              wt    3.2172(4.1957-2.2387)**

这样，我们就得到了正确的结果。
至于想要获得不同分组的统计结果，这里暂时还没有完成，需要大家将数据集切分，同时得到三个表，进行合并，输出，并且在WORD里修改。以后有空在优化吧～

参考文献

R语言实战，作者：卡巴科弗，ISBN: 9787115299901

R语言与C语言混合编程：在R语言中调用C语言函数数据探索 r语言 c语言开发语言 R语言
R语言与C语言混合编程：在R语言中调用C语言函数介绍：R语言是一种用于统计分析和数据可视化的高级编程语言，而C语言是一种通用的、强大的编程语言。在某些情况下，我们可能需要在R语言中调用C语言函数以提高性能或实现特定的功能。本文将介绍如何在R语言中调用C语言函数的方法，并提供相应的源代码示例。步骤：为了在R语言中调用C语言函数，我们需要执行以下步骤：编写C语言函数：首先，我们需要编写我们想要在R中调
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
r语言回归分析分类变量_R语言下的PSM分析分类变量处理与分析步骤 weixin_39715834 r语言回归分析分类变量 r语言清除变量
最近学习了PSM，我选择了用R去跑PSM，在这过程中遇到了许多问题，最后也都一一解决了，写下这个也是希望大家在遇到相同问题的时候能够得到帮助和启发，别的应该不会遇到太难的问题了哈哈。最近我也没做什么，录数据，或者说还在调整心态，最近遇到的事情也比较多，又或者说最近的心态比较乱，晚上也睡不好导致白天也比较烦躁，所以可能还是需要一段时间去好好调整，因此最近更新的也比较慢。不过还是会坚持的。问题阐述：1
R语言倾向性匹配得分（PSM）分析后端工程实践 r语言 java 开发语言 R语言
R语言倾向性匹配得分（PSM）分析倾向性匹配得分（PropensityScoreMatching,PSM）是一种常用的统计方法，用于处理观察研究中的选择性偏倚。它通过建立一个倾向性得分模型，将受试者分为处理组和对照组，以实现类似于随机对照试验的效果。本文将介绍如何使用R语言进行倾向性匹配得分分析，并提供相应的源代码。导入所需的R包在进行PSM分析之前，首先需要导入所需的R包。常用的包包括Match
R语言入门课| 05 一文掌握R语言常见数据类型 Biomamba生信基地 r语言信息可视化开发语言生信医药
视频教程大家可以先做一做R语言基础小测验，看看自己是否需要跟我们5.5h入门R语言的课程。先上教程视频，B站同步播出：https://www.bilibili.com/video/BV1miNVeWEkw完整视频回放和答疑服务可见：5.5h入门R语言本节课程视频：（点击此处查看）"R语言入门课"是我们认为生信小白入门不得不听的一个课程，我们也为这个课程准备了许多干货。R语言的精髓便是数据处理，在本
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
R 语言中的判断语句 lsx202406 开发语言
R语言中的判断语句在R语言编程中，判断语句是执行条件逻辑的基础。它们允许程序根据特定的条件执行不同的代码块。本文将深入探讨R语言中的几种常见判断语句，包括if语句、if-else语句和switch语句，并探讨它们的用法和场景。1.if语句if语句是R语言中最基本的条件判断结构。它的基本形式如下：if(条件){#条件为真时执行的代码块}当条件为真时，R会执行大括号内的代码块。如果条件为假，则不会执行
从0开始学习R语言--Day31--概率图模型 Chef_Chen 学习
在探究变量之间的相关性时，由于并不是每次分析数据时所用的样本集都能囊括所有的情况，所以单纯从样本集去下判断会有武断的嫌疑；同样的，我们有时候也想要在数据样本不够全面时就能对结果有个大概的了解。例如医生在给患者做诊断时，有些检查需要耗费的时间很久，但仅仅凭借一些其他的症状，他就可以对病人患某种病有个大概的猜想，从而先做出一些措施来降低风险，毕竟等到疾病真正发生时可能会来不及。概率图模型便是能够同时进
Jmeter使用过程中的一些总结 kanyun123 jmeter
以下总结使用的Jmeter版本为5.6.31、当把Jmeter语言转换为中文时，可能会出现jmeter日志不出现，当发现Jmeter不发送请求时，不显示日志，排查问题就会没有头绪，此时可以尝试将语言切换为英文，再尝试发现日志出现了。2、当你辛辛苦苦地的做完的稳定性测试，还没来得及截图，这个时候，你心血来潮想切换下语言，然后你面发现测好的数据都没了。3、有些数据使用csv或者jmeter的内置函数都
分类树/装袋法/随机森林算法的R语言实现廖致君 R
原文首发于简书于[2018.06.12]本文是我自己动手用R语言写的实现分类树的代码，以及在此基础上写的袋装法（bagging）和随机森林（randomforest）的算法实现。全文的结构是：分类树基本知识predginisplitrulesplitrule_bestsplitrule_randomsplittingbuildTreepredict装袋法与随机森林基本知识baggingpredic
flutter内容学习总结玖柒凯哲学习
Flutter语言学习引言随着移动互联网的快速发展，移动应用开发已成为软件开发领域的一个重要分支。为了满足日益增长的应用需求，开发者们寻求更高效、更便捷的开发工具。Flutter作为一个由Google推出的开源移动应用开发框架，它以其高效的编码体验、优秀的性能和可观的UI保真度吸引了众多开发者的关注。本学习内容总结报告将围绕Flutter开发环境的搭建、调试方法、核心组件和布局管理进行详细阐述。F
从0开始学习R语言--Day27--空间自相关 Chef_Chen 学习
有的时候，我们在数据进行分组时，会发现用正常的聚类分析的方法和思维，分组的情况不是很理想。其实这是因为我们常常会忽略一个问题：假设我们正在分析的数据是真实的，那么它也肯定在一定程度上符合客观规律。而如果我们正在分析的数据中，有真实的客观空间数据时，可以考虑用空间自相关的方法去分析。例如我们在分析城市犯罪率的时候，用聚类分析的思维，我们可能会思考不同城市的犯罪特征是什么，是否有相似点，亦或是试图把城
第100+42步 ChatGPT学习：R语言实现阈值调整 Jet4505 《100+X Steps to Get ML》学习 r语言开发语言 chatgpt
今天来说个机器学习分类的概念，阈值。一、何为阈值这个阈值（Threshold）在二分类问题中起到了关键作用，它决定了模型预测结果的分类边界。在二分类问题中，模型通常会输出一个概率值（介于0和1之间），表示样本属于某一类（通常为正类）的可能性。阈值的作用是将这个概率值转换为具体的分类结果（0或1）。如果预测概率**大于阈值**，则分类为正类（1）。如果预测概率**小于或等于阈值**，则分类为负类（0
从0开始学习R语言--Day26--因果推断
很多时候我们在探讨数据的相关性问题时，很容易会忽略到底是数据本身的特点还是真的是因为特征的区分导致的不同，从而误以为是特征起的效果比较大。这就好比测试一款新药是否真的能治病，假如吃药的患者康复的更快，那到底是因为药物本身的效果好，还是因为患者本身更健康，平时有控制饮食合理作息与运动，从而在患病后更快地凭借自身免疫力战胜病毒。这需要我们意识到对照试验还需要人为地补足某些条件，也就是探讨是否真的是X导
最新期刊影响因子，基本包含全部期刊 Bioinfo科研生信筆記影响因子 2024年期刊影响因子期刊因子因子 IF
原文链接：2024年期刊最新影响因子（IF）2024年期刊最新影响因子（IF）BioinfoR生信筆記，注于分享生物信息学相关知识和R语言绘图教程。
R语言文本探索与预处理：入门指南 Morpheon R r语言开发语言
今天是个阴雨连绵的夏日，因此带来今天的第二篇推文。祝您阅读愉快！文本探索和预处理是将非结构化文本转换为结构化数据进行分析的关键步骤。R语言中的正则表达式(Regex)正则表达式(Regex)是定义文本模式的字符序列，用于搜索、模式匹配和文本替换等任务。在处理搜索引擎和垃圾邮件过滤等应用中的非结构化文本时至关重要。R中常用的正则表达式函数：grep()/grepl()：定位匹配模式的字符串；grep
文本聚类分析：基于相似性的文档分组 Morpheon R R TextClustering
大家周一快乐！最近世界局势动荡，中东冲突不断。这种混乱可能会影响我们对世界的认知。就像法国人说的“C’estlavie”（这就是生活）。但无论未来如何，请记住瑞士人常说的“Lavieestbelle”（生活是美好的）。文本聚类分析通过内容相似性将文档分组，实现在R语言中自动对大型文本集合进行分类。什么是文本聚类分析？聚类分析将文档分组，使得同一组内的文档彼此之间的相似度高于与其他组中文档的相似度。
scanpy读取10x单细胞数据木与长清单细胞数据处理 python
做单细胞或空间组课题时经常会需要导入文献中的单细胞数据作为参考，市面上最常见的格式又以10xgenomics为主要代表，通常包括barcodes.tsv.gz、features.tsv.gz（或者genes.tsv.gz）、matrix.mtx.gz三种格式文件。在面对数据读取问题时，R语言Seurat包有Read10X函数，Python中scanpy包则对应scanpy.read_10x_mtx
Flutter 与原生技术（Objective-C/Swift，java）的关系 BAGAE cocoa macos objective-c 智慧城市 java 开发语言 hbase
在iOS开发中，Flutter与原生技术（Objective-C/Swift）的关系一、技术定位与核心差异Flutter语言：使用Dart语言开发，通过AOT（提前编译）将代码转换为原生ARM指令，无需依赖iOS原生UI组件。渲染：使用Skia图形引擎直接渲染UI，实现跨平台UI一致性。优势：一套代码同时支持iOS和Android，开发效率高；UI表现可控性强。iOS原生开发语言：主流语言为Swi
R语言非结构化文本挖掘入门指南 Morpheon R r语言开发语言
文本挖掘（TextMining），也称为文本分析（TextAnalytics），是从非结构化文本数据中提取有意义的见解。全球约80%的数据是非结构化的。本篇博客将探讨文本挖掘和网络爬取的关键概念及基于R的实用技术。什么是文本挖掘？文本挖掘利用计算技术从非结构化文本源（如书籍、报告、文章、博客和社交媒体帖子）中提取结构化信息。它能够自动化地从海量数据集中发现知识，实现文本摘要和分析。关键点：非结构化
从0开始学习R语言--Day20-ARIMA与格兰杰因果检验 Chef_Chen 学习 r语言开发语言
ARIMAARIMA模型的核心就藏在其名字里，AR（自回归）代表了要预测的数据可能跟历史数据有关系，I（差分）代表了历史数据点之间的差异，MA（移动平均）代表了在预测历史数据点产生的误差可以在预测未来数据时修正，这三个点加起来共同用历史数据来预测未来值。举个浅显的例子就是，假设要预测明天会不会下雨，首先我们查看过去的数据带你，如果过去连续三天都下雨，那么明天下雨的概率就会很高，对应着AR，即用过去
Anaconda 基础教程
一、什么是Anaconda？Anaconda是一个开源的Python和R语言的发行版本，致力于为数据科学、机器学习、大数据处理和科学计算提供便利的包管理和环境管理工具。它包含了conda包管理器和超过1500个数据科学常用的库。二、Anaconda的核心组成Conda：用于包管理和环境管理的工具。AnacondaNavigator：图形界面的包和环境管理工具。预装库：如NumPy、Pandas、M
R语言序列8——RMarkdown与数据报告自动化 theskylife R语言的修炼之路 r语言自动化开发语言
目录写在开头1.RMarkdown基础1.1开始第一个RMarkdown1.1.1安装R和RStudio1.1.2.安装pandoc1.1.3.创建一个新的RMarkdown文档1.1.4.编辑RMarkdown文档1.1.5.渲染文档1.1.6.导出文档1.2文档结构与语法1.3不同输出格式的配置（HTML、PDF、Word）2.动态报告与参数化报告2.1插入R代码和结果2.2使用参数化报告定制
【科研绘图系列】R语言绘制论文组图（multiple plots）生信学习者1 SCI科研绘图系列 r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图1画图2画图3画图4输出图片总结系统信息介绍一个用于分析和可视化博茨瓦纳婴儿微生物组研究（BotswanaInfantMicrobiomeStudy）中呼吸道病毒和细菌数据的R脚本。代码的主要目的是生成论文中的Figure1，包括三个子图（a、b、c），并保存相关的数据和图
从0开始学习R语言--Day20--Wilcoxon秩和检验 Chef_Chen 学习 r语言开发语言
Wilcoxon秩和检验当数据不满足正态分布时，我们常常会苦恼于如何处理数据。即使是用缩进的方法，把数据缩进到（1-99%）或（1-95%）的范围内，假如有一些数据点集中在数据分布的尾端，这依然会影响到我们对数据特点的判断，尤其是需要探寻数据组之间的联系或关系的时候。而实际上，假设我们要探究的不是数据在统计上的数值关系，而是因果关系或比较，我们可以把数据处理成秩次的形式，从而去对比数据组，这样相当
从0开始学习R语言--Day19--连续变量的相关性检验 Chef_Chen 学习 r语言开发语言
昨天我们学习了分类变量的检验方法，今天我们来看看连续性变量的相关性检验方法。Pearson一般来说，person适用于两个变量之间满足线性的单调关系，像我们常说的单调递增或单调递减，且我们的变量是连续且正态分布的。简单来说，就是变量拥有无限的可能性，比如身高可能是160.1,160.9，185.32等等，且大部分的值都在平均值附近（比如一个城市成年男性的平均身高）。听起来似乎很简单，但有时候可以有
从0开始学习R语言--Day21--Kruskal-Wallis检验与Friedman检验 Chef_Chen 学习
Kruskal-Wallis检验Kruskal-Wallis检验一般用于比较常见的比较三个群体的水平，比如我们有一班、二班、三班的语文成绩，我们将三个班的学生成绩混合在一起进行排名，也就是我们平时所说的级排名。进一步通过计算班级的平均级排名来判断班级之间的班级水平，这个方法要求数据之间要独立分布，即不要有类似三个班之间会有互相辅导的情况，不互相影响。Friedman检验Friedman检验同样用于
300+SCI科研绘图系列教程（R和python）提供完整的数据和代码生信学习者1 SCI科研绘图系列 r语言 python 数据可视化
科研绘图系列：科研绘图系列：R语言分组柱状图三科研绘图系列：箱线图加百分比点图展示组间差异-CSDN博客科研绘图系列：箱线图加蜜蜂图展示组间数据分布-CSDN博客科研绘图系列：小提琴图和双侧小提琴图展示组间差异-CSDN博客科研绘图系列：组间差异的STAMP图的ggplot2实现-CSDN博客科研绘图系列：组间差异误差棒展示-CSDN博客科研绘图系列：甜圈圈donut图展示比例-CSDN博客科研绘
【科研绘图系列】R语言绘制论文组图（multiple plots）生信学习者1 SCI科研绘图系列 r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图1画图2画图3画图4画图5画图6输出图片总结系统信息介绍这段代码是用于分析和可视化博茨瓦纳婴儿微生物组研究（BotswanaInfantMicrobiomeStudy）中呼吸道病毒和细菌定植数据的R脚本。代码的主要目的是生成论文中的Figure3，包括五个子图（a、b、c、
【R语言编程——数据调用】南瓜胖胖 r语言开发语言
这里写自定义目录标题可用库及数据集外部数据导入方法查看数据集信息在R语言中，有多个库支持调用内置数据集或外部数据，包括studentdata等教学或示例数据集。以下是常见的库和方法：可用库及数据集openintro库该库包含多个教学数据集，包括studentdata。安装并加载库后可直接调用：install.packages("openintro")library(openintro)data(s
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

使用R进行描述性统计分析（连续性变量）

使用R进行描述性统计分析（连续性变量）

基础函数

其他方法

Hmisc包

pastecs包

psych包

利用sapply()函数计算描述性统计量

分组计算

输出一般统计描述的表格（连续性变量）

参考文献

你可能感兴趣的:(R语言)

利用`sapply()`函数计算描述性统计量