hehuanlin123

R语言笔记（二）

5 高级数据管理

数据分析 BY 伦大锤阅读量 1,948

相对于基本数据管理，此处我们将接触到R中多种数学、统计和字符处理函数，学习如何自己编写函数，包括循环和条件执行语句，以及了解数据的整合和概述方法、重塑和重构方法。

5.1 一个数据处理难题

要讨论数值和字符处理函数，不妨先考虑一个数据问题。一组学生参加了数学、科学和英语考试，需要按照某种成绩衡量指标将三门科目的成绩组合起来并排序，将前20%的学生评定为A，接下来20%的学生评定为B，依次类推。最后，将所有学生按照字母顺序进行排序并输出。

需要考虑的问题包括以下几点：

三科的均值和标准差相去甚远，因此求平均值显然没有意义。在组合多门成绩之前，必须将其变换为可比较的单元；
将三科成绩组合之后，需要确定一种标准来评定学生的排名；
表示姓名的字段只有一个，使得排序任务复杂化。为了正确地将其排序，需要将姓和名拆开。

5.2 数值和字符处理函数

R中数据处理最为重要的函数包括数值（数学、统计、概率）函数和字符处理函数。

数学函数

常用的数学函数包括：

abs(x)：绝对值；
sqrt(x)：平方根；
ceiling(x)：不小于x的最小整数；
floor(x)：不大于x的最大整数；
trunc(x)：向0的方向截取x的整数部分；
round(x, digits=n)：将x舍入为指定位的小数；
signif(x,digits=n)：将x舍入为指定的有效数字位数；
cos(x)、sin(x)、tan(x)、acos(x)、asin(x)、atan(x)、cosh(x)、sinh(x)、tanh(x)、acosh(x)、asinh(x)、atanh(x)：三角函数；
log(x,base=n)：对x取以n为底的对数；
log(x)：对x取以e为底的对数；
log10(x)：对x取以10为底的对数；
exp(x)：e的指数函数。

统计函数

常用的统计函数包括：

mean(x)：平均数；
median()：中位数；
sd(x)：标准差；
var(x)：方差；
mad(x)：绝对中位差；
quantile(x,probs)：求分位数，其中x为待求分位数的数值型向量，probs为一个由[0,1]之间的概率值组成的数值向量；
range(x)：求值域；
sum(x)：求和；
diff(x,lag=n)：滞后差分；
min(x)：求最小值；
max(x)：求最大值；
scale(x,center=TRUE,scale=TRUE)：为数据对象x按列进行中心化或标准化。

其中许多函数都提供了丰富的可选参数，可以进一步影响输出结果。例如以下截尾平均数，丢弃了最大5%和最小5%的数据和所有缺失值后得到算数平均值。

以下代码演示了计算某个数值向量均值和标准差的两种方式：

不难发现，R中公式的写法和类似Matlab的矩阵运算语言有着许多共同之处。

使用以下代码对矩阵或数据框的数值列进行均值为1、标准差为0的标准化：

或者任意均值和标准差：

如果仅对指定列处理，则使用transform()函数：

概率函数

概览函数和统计函数类似，但是通常用来生成特征已知的模拟数据，以及在用户编写的统计函数中计算概率值。

R中的每个概览函数都对应四个具体函数：d（密度函数）、p（分布函数）、q（分位数函数）和r（生成随机数）。

以正态分布为例，如果不指定均值和标准差，将会生成标准正态分布（均值为0，标准差为1），相应的密度函数（dnorm）、分布函数（pnorm）、分位数函数（qnorm）和随机生成函数（rnorm）分别如下。

在每次生成伪随机数的时候，函数都会使用一个不同的种子，因此也会产生不同的结果。可以通过函数set.seed()显式指定种子，使得之前的结果可以重现（reproducible）。重现数据有助于创建会在未来取用的，以及可与他人分享的随机示例数据。

使用MASS包中的mvrnorm()函数可以生成来自给定均值向量和协方差矩阵的多元正态分布，以下是一个生成满足指定三元正态分布的例子。

字符处理函数

数学和统计函数用于处理数值型数据，而字符处理函数用于从文本型数据中抽取信息。

nchar(x)：计算x中的字符数量；
substr(x, start, stop)：提取或替换子串；
grep(pattern, x, ignore.case=FALSE, fixed=FALSE)：在x中搜索某种模式，fixed=FALSE则pattern为一个正则表达式，否则pattern为一个文本字符串，返回值为匹配的下标；
sub(pattern, replacement, x, ignore.case=FALSE, fixed=FALSE)：在x中搜索某种模式并替换；
strsplit(x, split, fixed=FALSE)：在split处分隔字符向量x中的元素；
paste(…, sep=””)：连接字符串，分隔符为sep。paste(“x”, 1:3, sep=””)返回值为c(“x1”, “x2”, “x3”)，paste(“x”, 1:3, sep=”M”)返回值为c(“xM1”, “xM2”, “xM3”)；
toupper(x)：大写转换；
tolower()：小写转换。

其他实用函数

length(x)：x的长度；
seq(from, to, by)：生成一个序列，by为步长；
rep(x, n)：将x重复n次；
cut(x ,n)：将连续型变量x分割为n个水平的因子；
pretty(x, n)：通过选取n+1个等间距的取整值，将一个连续型变量分割为n个区间；
cat(…, file=”mayflies”, append=TRUE)：连接…中的对象，并将其输出到屏幕上或文件中。

在R中，函数可以应用到一系列数据对象上，包括标量、向量、矩阵、数组和数据框（和Matlab类似）。如果希望函数应用于矩阵的各行或者各列，可以考虑apply()函数。

MARGIN是维度的下标，1表示行、2表示列，FUN可以是内置函数或者你自己编写的函数，…为可选参数。

和apply()应用于矩阵一样，lapply()和sapply()则将函数应用于列表上。

5.3 数据处理难题的一套解决方案

回到我们之前的问题，组合三门成绩、按衡量指标排名、按区间分段打分、按姓名排序。

 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         

           7 
         

           8 
         

           9 
         

           10 
         

           11 
         

           12 
         

           13 
         

           14 
         

           15 
         

           16 
         

           17 
         

           18 
         

           19 
         

           20 
         
 
        
          options 
          ( 
          digits 
          = 
          3 
          ) 
         
 
          Student 
            
          < 
          - 
            
          c 
          ( 
          "John Davis" 
          , 
            
          "Angela Williams" 
          , 
            
          "Bullwinkle Moose" 
          , 
            
          "David Jones" 
          , 
            
          "Janice Markhammer" 
          , 
            
          "Cheryl Cushing" 
          , 
            
          "Reuven Ytzrhak" 
          , 
            
          "Greg Knox" 
          , 
            
          "Joel England" 
          , 
            
          "Mary Rayburn" 
          ) 
         
 
          Math 
            
          < 
          - 
            
          c 
          ( 
          502 
          , 
            
          600 
          , 
            
          412 
          , 
            
          358 
          , 
            
          495 
          , 
            
          512 
          , 
            
          410 
          , 
            
          625 
          , 
            
          573 
          , 
            
          522 
          ) 
         
 
          Science 
            
          < 
          - 
            
          c 
          ( 
          95 
          , 
            
          99 
          , 
            
          80 
          , 
            
          82 
          , 
            
          75 
          , 
            
          85 
          , 
            
          80 
          , 
            
          95 
          , 
            
          89 
          , 
            
          86 
          ) 
         
 
          English 
            
          < 
          - 
            
          c 
          ( 
          25 
          , 
            
          22 
          , 
            
          18 
          , 
            
          15 
          , 
            
          20 
          , 
            
          28 
          , 
            
          15 
          , 
            
          30 
          , 
            
          27 
          , 
            
          18 
          ) 
         
 
          roster 
            
          < 
          - 
            
          data 
          . 
          frame 
          ( 
          Student 
          , 
            
          Math 
          , 
            
          Science 
          , 
            
          English 
          , 
            
          stringsAsFactors 
          = 
          FALSE 
          ) 
         
 
          z 
            
          < 
          - 
            
          scale 
          ( 
          roster 
          [ 
          , 
          2 
          : 
          4 
          ] 
          ) 
         
 
          score 
            
          < 
          - 
            
          apply 
          ( 
          z 
          , 
            
          1 
          , 
            
          mean 
          ) 
         
 
          roster 
            
          < 
          - 
            
          cbind 
          ( 
          roster 
          , 
            
          score 
          ) 
         
 
          y 
            
          < 
          - 
            
          quantile 
          ( 
          score 
          , 
            
          c 
          ( 
          . 
          8 
          , 
            
          . 
          6 
          , 
            
          . 
          4 
          , 
            
          . 
          2 
          ) 
          ) 
         
 
          roster 
          $ 
          grade 
          [ 
          score 
            
          >= 
            
          y 
          [ 
          1 
          ] 
          ] 
            
          < 
          - 
            
          "A" 
         
 
          roster 
          $ 
          grade 
          [ 
          score 
            
          < 
            
          y 
          [ 
          1 
          ] 
            
          & 
            
          score 
            
          >= 
            
          y 
          [ 
          2 
          ] 
          ] 
            
          < 
          - 
            
          "B" 
         
 
          roster 
          $ 
          grade 
          [ 
          score 
            
          < 
            
          y 
          [ 
          2 
          ] 
            
          & 
            
          score 
            
          >= 
            
          y 
          [ 
          3 
          ] 
          ] 
            
          < 
          - 
            
          "C" 
         
 
          roster 
          $ 
          grade 
          [ 
          score 
            
          < 
            
          y 
          [ 
          3 
          ] 
            
          & 
            
          score 
            
          >= 
            
          y 
          [ 
          4 
          ] 
          ] 
            
          < 
          - 
            
          "D" 
         
 
          roster 
          $ 
          grade 
          [ 
          score 
            
          < 
            
          y 
          [ 
          4 
          ] 
          ] 
            
          < 
          - 
            
          "F" 
         
 
          name 
            
          < 
          - 
            
          strsplit 
          ( 
          ( 
          roster 
          $ 
          Student 
          ) 
          , 
            
          " " 
          ) 
         
 
          Lastname 
            
          < 
          - 
            
          sapply 
          ( 
          name 
          , 
            
          "[" 
          , 
            
          2 
          ) 
         
 
          Firstname 
            
          < 
          - 
            
          sapply 
          ( 
          name 
          , 
            
          "[" 
          , 
            
          1 
          ) 
         
 
          roster 
            
          < 
          - 
            
          cbind 
          ( 
          Firstname 
          , 
            
          Lastname 
          , 
            
          roster 
          [ 
          , 
          - 
          1 
          ] 
          ) 
         
 
          roster 
            
          < 
          - 
            
          roster 
          [ 
          order 
          ( 
          Lastname 
          , 
            
          Firstname 
          ) 
          , 
          ] 
         
 
      
 
     
   

最后查看roster，你应当得到如下结果。

5.4 控制流

在正常情况下，R程序中的语句是从上至下执行的。当然有时候你需要控制程序的执行流，即使用条件和循环。

为了理解贯穿接下来内容的语法示例，请牢记以下概念：

语句（statement）是一条单独的R语句或一组复合语句（包含在｛｝中的一组R语句，使用分号分割）；
条件（cond）是一条最终被解析为逻辑值的表达式；
表达式（expr）是一条数值或字符串的求值语句；
序列（seq）是一个数值或字符串序列。

重复和循环

循环结构重复地执行一个或一系列语句，直到某个条件不再为真，循环结构包括for循环和while循环。

在以下的例子中，单词Hello被输出了10次。

使用循环的时候，记得在循环里修改标记量，避免导致死循环。

在处理大数据集中的行和列时，R中的循环可能比较低效耗时，应该尽可能使用R中内建的数值/字符处理函数和apply()族函数。

条件执行

在条件执行结构中，一条或一组语句仅在满足指定条件时执行。条件执行结构包括if-else、ifelse和switch。

再给出一个使用switch的例子，虽然简单但清晰说明了switch的使用方法。

5.5 用户自编函数

R最大的优点之一就是支持用户自行添加函数，R中许多函数也是基于已由函数构成的，一个函数的结构大概如下：

函数中的对象只在函数内部使用（记得｛｝的作用吗？），返回对象的数据类型是任意的，从标量到列表皆可。

要查看此函数的运行情况，则需要生成一些测试数据并调用。

在所得结果中，y$center为均值（0.00184），y$spread为标准差（1.03），并且没有输出结果；z$center为中位数（-0.0207），z$spread为绝对中位差（1.001），并且还会在屏幕上打印信息。

再来看一个使用了switch的用户自编函数，该函数可以让用户选择输出当天日期的格式。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
          mydate 
            
          < 
          - 
            
          function 
          ( 
          type 
          = 
          "long" 
          ) 
          { 
            
          switch 
          ( 
          type 
          , 
         
          long 
            
          = 
            
          format 
          ( 
          Sys 
          . 
          time 
          ( 
          ) 
          , 
            
          "%A %B %d %Y" 
          ) 
          , 
         
          short 
            
          = 
            
          format 
          ( 
          Sys 
          . 
          time 
          ( 
          ) 
          , 
            
          "%m-%d-%y" 
          ) 
          , 
         
          cat 
          ( 
          type 
          , 
            
          "is not a recognized type\n" 
          ) 
         
          ) 
         
          } 
         
          mydate 
          ( 
          "long" 
          ) 
         
          mydate 
          ( 
          "short" 
          ) 
         
          mydate 
          ( 
          ) 
         
          mydate 
          ( 
          "medium" 
          )

switch中的最后一条语句给出了如何处理错误（或其他意料之外）的输入。除此之外，还有一些函数可以用来为函数添加错误捕获和纠正功能，如使用warning()生成一条错误提示信息，用message()生成一条诊断信息，用stop()停止当前表达式的执行并提示错误。如果希望了解更多关于调试程序的内容，请阅读Duncan Murdoch整理的“Debugging in R”。

5.6 整合与重构

R中提供了许多用于整合（aggregate）和重塑（reshape）数据的强大方法，整合数据是指将多组观测替换为根据这些观测计算的描述性统计量，重塑数据是指通过修改数据的结构（行和列）来决定数据的组织方式。

以下例子中，将会使用已包含在R基本安装中的数据框mtcars。该数据集从Motor Trend杂志（1974）提取，描述了34种车型的设计和性能特点（汽缸数、排量、马力、每加仑汽油行驶的英里数）。

转置

使用函数t()即可对一个矩阵或数据框进行转置，对于后者，行名将成为列名。

整合数据

在R中使用一个或多个by变量和一个预先定义好的函数来整合（collapse）数据十分容易。

其中x为待整合的数据对象，by是一个变量名组成的列表，这些变量将被去掉以形成新的观测，FUN是用来计算描述性统计量的标量函数，它将被用来计算新观测中的值。以下代码根据汽缸数和档位数整合mtcars数据，并返回各个数值型变量的均值。

将会得到以下结果。如何理解呢？例如第一行，拥有4个气缸和3个档位的车型，每加仑汽油行驶英里数（mpg）均值为21.5。需要注意的是，by中的参数必须写在一个列表中（即使只有一个参数）。

Reshape包

reshape包是一套重构和整合数据集的万能工具。由于reshape包并未内置在R的标准安装中，所以有必要通过install.packages(“reshape”)进行安装。

我们的操作大概包括两部分：融合（melt），使得每一行都是一个唯一的标识符和变量的组合；重铸（cast），将数据集变成任何需要的形状。接下来代码中，将处理以下样例数据。

融合

融合使得每个测量变量独占一行，行中必须带有唯一确定该测量的标识符变量。

注意，必须指定要唯一确定每个测量所需的变量（ID和Time），而表示测量变量名的变量（X1和X2）将由程序自动创建。

既然已经拥有了融合后的数据，现在便可以使用cast()函数将其重铸为任意形状了。

重铸

cast()函数读取已融合的数据，并使用提供的公式和一个（可选的）用于整合数据的函数将其重铸。

接受的公式形如：

rowvar1+rowvar2+…定义了要去掉的变量集合，以确定各行的内容；colvar1+colvar2+…定义了要去掉的变量集合，以确定各列的内容。下图给出了使用cast()函数处理样例数据的例子。

6 基本图形

数据分析 BY 伦大锤阅读量 1,059

分析数据要做的第一件事情，就是观察它。对于每个变量，哪些值是最常见的？值域是大是小？是否有异常观测？变量可以为连续型或类别型，我们将探索如何使用条形图、饼图、扇形图、直方图、核密度图、箱线图、小提琴图和点图等来分析和展示变量。

6.1 条形图

条形图通过垂直或水平的条形来展示类别型变量的分布（频数）。

其中的height是一个向量或一个矩阵。在接下来的例子中，将使用到vcd包中带有的Arthritis数据框，其描述了一项探索类风湿性关节炎新疗法研究的结果。

简单的条形图

当height为一个向量时，向量值便确定了各条形的高度并绘制一幅垂直的条形图。使用参数horiz=TRUE则生成一幅水平条形图，还可以使用main、xlab和ylab等图形参数。

在关节炎研究中，变量Improved记录了对每位接受了安慰剂或药物治疗的病人的治疗效果。其中28人有了明显改善，14人有部分改善，而42人没有改善。

其实如果要绘制的类别型变量是一个因子或有序型因子，就可以直接使用函数plot()快速创建一幅垂直条形图。由于Arthritis$Improved是一个因子，因此以下代码也可以达到同样效果。

 
           1 
         
           2 
         
          plot 
          ( 
          Arthritis 
          $ 
          Improved 
          , 
            
          main 
          = 
          "Simple Bar Plot" 
          , 
            
          xlab 
          = 
          "Improved" 
          , 
            
          ylab 
          = 
          "Frequency" 
          ) 
         
          plot 
          ( 
          Arthritis 
          $ 
          Improved 
          , 
            
          horiz 
          = 
          TRUE 
          , 
            
          main 
          = 
          "Horizontal Bar Plot" 
          , 
            
          xlab 
          = 
          "Frequency" 
          , 
            
          ylab 
          = 
          "Improved" 
          )

堆砌条形图和分组条形图

如果height是一个矩阵而不是一个向量，则绘图结果将是一幅堆砌条形图或分组条形图。beside默认为FALSE表示堆砌，否则将分组。考虑治疗类型和改善情况的列联表：

 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         
 
        
          library 
          ( 
          vcd 
          ) 
         
 
          counts 
            
          < 
          - 
            
          table 
          ( 
          Arthritis 
          $ 
          Improved 
          , 
            
          Arthritis 
          $ 
          Treatment 
          ) 
         
 
          barplot 
          ( 
          counts 
          , 
            
          main 
          = 
          "Stacked Bar Plot" 
          , 
            
          xlab 
          = 
          "Treatment" 
          , 
            
          ylab 
          = 
          "Frequency" 
          , 
            
          col 
          = 
          c 
          ( 
          "red" 
          , 
          "yellow" 
          , 
          "green" 
          ) 
          , 
            
          legend 
          = 
          rownames 
          ( 
          counts 
          ) 
          ) 
         
 
          barplot 
          ( 
          counts 
          , 
            
          main 
          = 
          "Grouped Bar Plot" 
          , 
            
          xlab 
          = 
          "Treatment" 
          , 
            
          ylab 
          = 
          "Frequency" 
          , 
            
          col 
          = 
          c 
          ( 
          "red" 
          , 
          "yellow" 
          , 
          "green" 
          ) 
          , 
            
          legend 
          = 
          rownames 
          ( 
          counts 
          ) 
          , 
            
          beside 
          = 
          TRUE 
          ) 
         
 
      
 
     
   

第一个barplot函数绘制了一幅堆砌条形图，而第二个绘制了一幅分组条形图。图中图例和条形图叠加了，不过这可以通过格式化和放置图例的方法解决，故不用担心。

均值条形图

条形图并不一定要基于计数数据或频率数据，也可以使用数据整合函数并将结果传递给barplot()函数，来创建表示均值、中位数、标准差等条形图。

条形图的微调

有多种方法可以微调条形图的外观：

随着条数的增多，可以使用cex.names减小字号避免标签重叠；
name.arg允许用一个字符向量指定条形的标签名；
其他通用图形参数。

以下代码中，旋转了条形的标签（las）、修改了标签文本、增加了y边界的大小（mar）、缩小了字体大小（cex.names）。

 
      
 
      
 
      
 
      
 
      
 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         
 
        
          par 
          ( 
          mar 
          = 
          c 
          ( 
          5 
          , 
          8 
          , 
          4 
          , 
          2 
          ) 
          ) 
         
 
          par 
          ( 
          las 
          = 
          1 
          ) 
         
 
          counts 
            
          < 
          - 
            
          table 
          ( 
          Arthritis 
          $ 
          Improved 
          ) 
         
 
          barplot 
          ( 
          counts 
          , 
            
          main 
          = 
          "Treatment Outcomes" 
          , 
            
          horiz 
          = 
          TRUE 
          , 
            
          cex 
          . 
          names 
          = 
          0.8 
          , 
            
          names 
          . 
          arg 
          = 
          c 
          ( 
          "No Improvement" 
          , 
            
          "Some Improvement" 
          , 
            
          "Marked Improvement" 
          ) 
          ) 
         
 
      
 
     
   

棘状图

还有另一种特殊的条形图：棘状图（spinogram）。棘状图对堆砌条形图进行了重缩放，使得每个条形的高度均为1，每一段的高度表示所占比例。棘状图可由vcd包中的spine()绘制：

通过棘状图可以看出，治疗组和安慰剂组相比，获得显著改善的患者比例更高。

6.2 饼图

虽然饼图在商业世界中使用广泛，但是多数统计学家却并不支持它，因为相对于饼图的面积，人类对条形图或点图中的长度判断更加精确。也许是因为这个原因，R中饼图的选项和其他统计软件相比十分有限。

其中x是一个非负数值向量，表示各个扇形的面积，labels则是各扇形标签的字符型向量。以下代码绘制了三幅饼图，最简单的饼图、显示百分比的饼图和三维饼图。

 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         

           7 
         

           8 
         

           9 
         
 
        
          par 
          ( 
          mfrow 
          = 
          c 
          ( 
          1 
          , 
          3 
          ) 
          ) 
         
 
          slices 
            
          < 
          - 
            
          c 
          ( 
          10 
          , 
            
          12 
          , 
            
          4 
          , 
            
          16 
          , 
            
          8 
          ) 
         
 
          lbs 
            
          < 
          - 
            
          c 
          ( 
          "US" 
          , 
            
          "UK" 
          , 
            
          "Australia" 
          , 
            
          "Germany" 
          , 
            
          "France" 
          ) 
         
 
          pie 
          ( 
          slices 
          , 
            
          labels 
          = 
          lbs 
          , 
            
          main 
          = 
          "Simple Pie Chart" 
          ) 
         
 
          pct 
            
          < 
          - 
            
          round 
          ( 
          slices 
          / 
          sum 
          ( 
          slices 
          ) 
          * 
          100 
          ) 
         
 
          lbs2 
            
          < 
          - 
            
          paste 
          ( 
          lbs 
          , 
            
          " " 
          , 
            
          pct 
          , 
            
          "%" 
          , 
            
          sep 
          = 
          "" 
          ) 
         
 
          pie 
          ( 
          slices 
          , 
            
          labels 
          = 
          lbs2 
          , 
            
          col 
          = 
          rainbow 
          ( 
          length 
          ( 
          lbs2 
          ) 
          ) 
          , 
            
          main 
          = 
          "Pie Chart with Percentages" 
          ) 
         
 
          library 
          ( 
          plotrix 
          ) 
         
 
          pie3D 
          ( 
          slices 
          , 
            
          labels 
          = 
          lbs 
          , 
            
          explode 
          = 
          0.1 
          , 
            
          main 
          = 
          "3D Pie Chart" 
          ) 
         
 
      
 
     
   

饼图让比较各扇形的值变得困难，除非这些值被附加在标签上。为了弥补这一缺点，产生了一种饼图的变种：扇形图。扇形图为用户提供了一种同时展示相对数量和相互差异的方法，各个扇形相互叠加并且拥有不同半径，从而使得所有扇形都是可见的。

 
           1 
         
           2 
         
           3 
         
           4 
         
          library 
          ( 
          plotrix 
          ) 
         
          slices 
            
          < 
          - 
            
          c 
          ( 
          10 
          , 
            
          12 
          , 
            
          4 
          , 
            
          16 
          , 
            
          8 
          ) 
         
          lbs 
            
          < 
          - 
            
          c 
          ( 
          "US" 
          , 
            
          "UK" 
          , 
            
          "Australia" 
          , 
            
          "Germany" 
          , 
            
          "France" 
          ) 
         
          fan 
          . 
          plot 
          ( 
          slices 
          , 
            
          labels 
          = 
          lbs 
          , 
            
          main 
          = 
          "Fan Plot" 
          )

6.3 直方图

直方图通过在X轴上将值域分割为一定数量的组，在Y轴上显示相应值的频数，展示了连续型变量的分布。使用以下函数创建直方图：

x为一个由数据值组成的数值向量，参数freq=FALSE表示根据概率密度而不是频数绘制图形，参数breaks用于控制组的数量。

 
      
 
      
 
      
 
      
 
      
 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         

           7 
         

           8 
         

           9 
         

           10 
         

           11 
         

           12 
         

           13 
         
 
        
          par 
          ( 
          mfrow 
          = 
          c 
          ( 
          2 
          , 
          2 
          ) 
          ) 
         
 
          hist 
          ( 
          mtcars 
          $ 
          mpg 
          ) 
         
 
          hist 
          ( 
          mtcars 
          $ 
          mpg 
          , 
            
          breaks 
          = 
          12 
          , 
            
          col 
          = 
          "red" 
          , 
            
          xlab 
          = 
          "Miles Per Gallon" 
          , 
            
          main 
          = 
          "Colored histogram with 12 bins" 
          ) 
         
 
          hist 
          ( 
          mtcars 
          $ 
          mpg 
          , 
            
          freq 
          = 
          FALSE 
          , 
            
          breaks 
          = 
          12 
          , 
            
          col 
          = 
          "red" 
          , 
            
          xlab 
          = 
          "Miles Per Gallon" 
          , 
            
          main 
          = 
          "Histogram, rug plot ,density curve" 
          ) 
         
 
          rug 
          ( 
          jitter 
          ( 
          mtcars 
          $ 
          mpg 
          ) 
          ) 
         
 
          lines 
          ( 
          density 
          ( 
          mtcars 
          $ 
          mpg 
          ) 
          , 
            
          col 
          = 
          "blue" 
          , 
            
          lwd 
          = 
          2 
          ) 
         
 
          x 
            
          < 
          - 
            
          mtcars 
          $ 
          mpg 
         
 
          h 
            
          < 
          - 
            
          hist 
          ( 
          x 
          , 
            
          breaks 
          = 
          12 
          , 
            
          col 
          = 
          "red" 
          , 
            
          xlab 
          = 
          "Miles Per Gallon" 
          , 
            
          main 
          = 
          "Histogram with normal curve and box" 
          ) 
         
 
          xfit 
            
          < 
          - 
            
          seq 
          ( 
          min 
          ( 
          x 
          ) 
          , 
            
          max 
          ( 
          x 
          ) 
          , 
            
          length 
          = 
          40 
          ) 
         
 
          yfit 
            
          < 
          - 
            
          dnorm 
          ( 
          xfit 
          , 
            
          mean 
          = 
          mean 
          ( 
          x 
          ) 
          , 
            
          sd 
          = 
          sd 
          ( 
          x 
          ) 
          ) 
         
 
          yfit 
            
          < 
          - 
            
          yfit 
          * 
          diff 
          ( 
          h 
          $ 
          mids 
          [ 
          1 
          : 
          2 
          ] 
          ) 
          * 
          length 
          ( 
          x 
          ) 
         
 
          lines 
          ( 
          xfit 
          , 
            
          yfit 
          , 
            
          col 
          = 
          "blue" 
          , 
            
          lwd 
          = 
          2 
          ) 
         
 
          box 
          ( 
          ) 
         
 
      
 
     
   

第一幅直方图未指定任何选项，共创建了五个组并且显示了默认的标题和坐标轴标签；第二幅直方图共12个分组，并使用红色填充条形；第三幅直方图保留了第二幅图的内容，并叠加了一条密度曲线（density）和轴须图（rug），密度曲线是数据分布一个的核密度估计，而轴须图是实际数据值的一种一维呈现方式；第四幅图和第二幅类似，还有一条叠加的正态曲线和一个将图形围绕起来的盒型。

6.4 核密度图

核密度估计是用于估计随机变量概率密度函数的一种非参数方法。

其中x为一个数值型向量，由于plot()函数会创建一幅新的图形，所以要向一幅已经存在的图形上叠加一条密度曲线时，可以使用lines()函数。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          par 
          ( 
          mfrow 
          = 
          c 
          ( 
          2 
          , 
          1 
          ) 
          ) 
         
          d 
            
          < 
          - 
            
          density 
          ( 
          mtcars 
          $ 
          mpg 
          ) 
         
          plot 
          ( 
          d 
          ) 
         
          plot 
          ( 
          d 
          , 
            
          main 
          = 
          "Kernel Density of Miles Per Gallon" 
          ) 
         
          polygon 
          ( 
          d 
          , 
            
          col 
          = 
          "red" 
          , 
            
          border 
          = 
          "blue" 
          ) 
         
          rug 
          ( 
          mtcars 
          $ 
          mpg 
          , 
            
          col 
          = 
          "brown" 
          )

第一幅图是默认设置创建的最简图形，而第二幅图中添加了标题，并将曲线修改成蓝色、使用实心红色填充了曲线下方的区域、添加了棕色的轴须图。

使用sm包中的sm.density.compare()函数可以向图形叠加两组或更多核密度图，格式为：

其中x为一个数值型向量，factor为一个分组变量。以下代码比较了拥有4个、6个或8个汽缸车型的每加仑汽油行驶英里数。

【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
科研绘图系列：R语言扩展物种堆积图（Extended Stacked Barplot）生信学习者1 SCI科研绘图系列 r语言数据可视化数据分析
介绍R语言的扩展物种堆积图是一种数据可视化工具，它不仅展示了物种的堆积结果，还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异，为研究者提供了一种有效的数据解读方式。加载R包knitr::opts_chunk$set(warning=F,message=F)library(tidyverse)library(phyloseq)library(g
科研绘图系列：R语言柱状图分布（histogram plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
文章目录介绍加载R包读取数据画图介绍柱状图（BarChart）是一种常用的数据可视化图表，用于展示和比较不同类别或组的数据。它通过在二维平面上绘制一系列垂直或水平的柱子来表示数据的大小，每个柱子的长度或高度代表一个数据点的数值。柱状图非常适合于展示分类数据的分布和比较。柱状图的特点：直观比较：柱状图可以直观地展示不同类别之间的数值比较，易于理解。分类展示：数据按照类别或组别进行分组展示，每个类别用
科研绘图系列：R语言富集散点图（enrichment scatter plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
介绍富集通路散点图（EnrichmentPathwayScatterPlot）是一种数据可视化工具，用于展示基因集富集分析（GeneSetEnrichmentAnalysis,GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献大小。加载R包导入所需要的R包，在导入前需要用户自己安装。library(readxl)l
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
sublime安装python库_Mac OS 轻松用 Sublime Text 3 配置Python编译环境 weixin_39603397
最近在学习数据分析相关的知识，对比Python和R语言在数据分析领域的优劣，Python更胜一筹。要学习Python，首先需要搭建编译环境。一.编译工具的选择Python的编译工具有两种，1.文本编辑器，SublimeText3,(还有vim,VistualStudioCode),此处重点介绍SublimeText32.集成开发环境(IDE),主要有pycharmpython，iclipsepyt
在linux（ubuntu）中使用网页版的rstudio Chao_Powell_Hou
RStudio是R语言集成开发环境的应用软件，RStudioServer是一个基于web访问的RStudio云端开发环境，需要安装在服务器上，支持多用户远程访问使用。可以在网页端打开，而且界面与windows版本的相同。安装就先不说了，挺简单的。安装完成后输入rstudio-server可以看到相应的指令。image.png为了激活，我们输入rstudio-serverstart，就已经激活了。但
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
学习小组Day5笔记--森蝶松风
数据结构Day5+数据结构.png新手注意事项1.R的赋值符号不是等号，而是<-2.在Console控制台输入命令，相当于Linux的命令行3.R的代码都是带括号的，括号必须是英文的。4.显示工作路径getwd()5.向量是由元素组成的，元素可以是数字或者字符串。6.表格在R语言中改名叫数据框7.函数或者命令不会用时，除了百度/谷歌搜索以外，用这个命令查看帮助：?read.table，调出对应的帮
学习小组Day6笔记--魏麻将魏麻将
R包什么？R包是R函数，编码和样本数据的集合，它们存储在R环境中的名为“library”的目录下。默认情况下，R在安装过程中安装一组软件包。当需要某些特定的目的时，也可根据需要添加更多的包。当我们启动R控制台时，默认情况下只有默认软件包可用。已经安装的其他软件包必须明确加载才能被要使用的R程序使用。注意：学生信，R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。安装和加载R
centos7 r语言安装_centos7 R-4.0.2 安装 weixin_39777404 centos7 r语言安装
tar-zvxfR-4.0.2.tar.gzcdR-*yuminstall-ygccyuminstall-ygcc-gfortranyuminstall-ygcc-c++yuminstall-yglibc-headersyuminstall-ylibreadline6-devgfortranyuminstall-yreadline-develyuminstall-ywgetlibXt-devely
linux下载R语言失败,[已解决]CentOS7下安装rjags失败 installation of package ‘rjags’ had non-zero exit status... 宁静致远敏 linux下载R语言失败
问题CentOS7下安装rjags失败installationofpackage‘rjags’hadnon-zeroexitstatus详细报错>install.packages("gbs2ploidy",dependencies=TRUE)alsoinstallingthedependency‘rjags’tryingURL'https://cran.rstudio.com/src/contri
Centos 安装R语言环境 3.6 118路司机 R CentOS centos r语言 python
前言目前R语言最新版已经是4.0以上了，所以安装旧版本可以通过下载源码方式安装。源码地址https://cran.r-project.org/src/base/R-3/步骤1.下载源码wgethttps://cran.r-project.org/src/base/R-3/R-3.6.3.tar.gz2.解压tar-zxvfR-3.6.3.tar.gzcdR-3.6.33.配置安装目录mkdir/u
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树 statistics.insight r语言决策树数据挖掘机器学习
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type参数、extra参数、fallen.leaves参数控制决策树精细化显示目录R语言使用rpart包构建决策树模型、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type
r语言变量长度不一致怎么办_C语言，C++常见编译错误 weixin_39624094 r语言变量长度不一致怎么办
fatalerrorC1003:errorcountexceedsnumber;stoppingcompilation中文对照：错误太多，停止编译分析：修改之前的错误，再次编译fatalerrorC1004:unexpectedendoffilefound中文对照：文件未结束分析：一个函数或者一个结构定义缺少“}”、或者在一个函数调用或表达式中括号没有配对出现、或者注释符“”不完整等fataler
科研绘图系列：R语言单细胞差异基因四分图（Quad plot）生信学习者2 R语言可视化 r语言数据分析数据挖掘
介绍在单细胞分析领域，为了探究不同分组间同一细胞类型的基因表达差异，研究者们常采用四分图（QuadPlot）作为分析工具。该图形的横轴代表比较组1，而纵轴代表比较组2。通过这种布局，四分图能够有效地展示两组间共有的差异表达基因，从而为深入理解细胞类型在不同条件下的分子特性提供直观的视角。这种可视化方法不仅揭示了组间基因表达的异同，还有助于识别可能在生物学过程或疾病发生中起关键作用的基因。加载R包导
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &