Kelvin写代码

R语言30分钟上手

文章目录

1. 环境&安装
- 1.1. rstudio保存工作空间
2. 创建数据集
- 2.1. 数据集概念
- 2.2. 向量、矩阵
- 2.3. 数据框
- - 2.3.1. 创建数据框
  - 2.3.2. 创建新变量
  - 2.3.3. 变量的重编码
  - 2.3.4. 列重命名
  - 2.3.5. 缺失值
  - 2.3.6. 日期值
  - 2.3.7. 数据框排序
  - 2.3.8. 数据框合并(合并沪深300和中证500收盘价日历)
  - 2.3.9. 数据框子集
  - 2.3.10. 随机抽样
  - 2.3.11. sql操作数据框
  - 2.3.12. 转置t
  - 2.3.13. 聚合aggregate
  - 2.3.14. reshape2
  - 2.3.15. 其他常用
  - - 2.3.15.1. 区间均分：
    - 2.3.15.2. 统计区间个数table(cut())
3. 数据标准化
- 3.1. 案例-学生成绩排名
- 3.2. 数学函数
- 3.3. 统计函数
- 3.4. 概率函数
- 3.5. 字符处理函数
- 3.6. 其他实用函数
4. 列表
5. 数据输入&输出
- - 5.0.1. 读取、写入csv文件
6. 画图
- 6.1. 收盘价日历图
- 6.2. 2图2y轴多元素
- - 6.2.1. mtcars点图
- 6.3. 条形图
- 6.4. 分组条形图
- 6.5. 饼图
- 6.6. 直方图
- 6.7. 核密度图
- 6.8. 点图
7. 统计分析
- 7.1. summary
- 7.2. cor相关系数
- 7.3. 回归

1. 环境&安装

R是支持win、linux合macos的

完整参考：https://zhuanlan.zhihu.com/p/596324321?utm_id=0

主要是安装：1、R环境；2、rstudio开发环境（后面主要是用rstudio，也可以用vscode）

1.1. rstudio保存工作空间

有2种东西关注：

1.是输入的命令历史

2.是一系列操作后，在工作空间里各种变量的数据值快照

答案：

1.在关闭rstudio的时候，会提示保存，输入的历史，会保存在工作空间的 .RHistory文件中，此文件在 getwd()输出的目录下。

2.通过save.image("myImage.RData")将变量数值快照保存到 myImage.RData 文件中，此文件在 getwd()输出的目录下。

2. 创建数据集

2.1. 数据集概念

变量类型：PatientID是行/实例标识符，AdmDate是日期型变量，Age是连续型变量，Diabetes是名义型变量(枚举)，Status是有序型变量(有顺序的枚举)

不同变量类型，后面画图用到的plot函数会有不同的呈现效果。

R的数据结构：R中有许多用于存储数据的结构，包括标量、向量(一组相同的标量)、矩阵、数组、数据框和列表。
R将实例标识符称为rownames(行名)，将类别型(包括名义型和有序型)变量称为因子(factors)。

2.2. 向量、矩阵

向量
> a <- c("k", "j", "h", "a", "c", "m")
> a[c(1, 3, 5)]
[1] "k" "h" "c"
> a[2:6]
[1] "j" "h" "a" "c" "m"


矩阵: 4行5列，默认是按照列来填充的
> y <- matrix(1:20, nrow = 4, ncol = 5)
> y
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20


指定列名、行名的矩阵
> mdata <- c(1,3,5,10)
> cnames <- c("c1", "c2")
> rnames <- c("r1", "r2")
> mymatrix <- matrix(mdata, nrow = 2, ncol = 2, dimnames = list(rnames, cnames), byrow = TRUE)
> mymatrix
   c1 c2
r1  1  3
r2  5 10

访问矩阵的单个元素、行、列（接上例）
> mymatrix
   c1 c2
r1  1  3
r2  5 10
> mymatrix[2,2]
[1] 10
> mymatrix[1,]
c1 c2 
 1  3 
> mymatrix[,2]
r1 r2 
 3 10

2.3. 数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据，数据框的概念较矩阵来说更为一般。

每一列数据的模式必须唯一，不过你却可以将多个模式的不同列放到一起组成数据框。

# 创建数据框
> patientID <- c(1, 2, 3, 4)
> age <- c(25, 34, 28, 52)
> diabetes <- c("Type1", "Type2", "Type1", "Type1")
> status <- c("Poor", "Improved", "Excellent", "Poor")
> patientdata <- data.frame(patientID, age, diabetes, status)        # 构建data.frame
> patientdata
  patientID age diabetes    status
1         1  25    Type1      Poor
2         2  34    Type2  Improved
3         3  28    Type1 Excellent
4         4  52    Type1      Poor

> patientdata[c(1,2)]        # 第1列和第2列
  patientID age
1         1  25
2         2  34
3         3  28
4         4  52

> patientdata[1,2]            # 第1行第2列的数据
[1] 25

> patientdata[1,]             # 第1行数据
  patientID age diabetes status
1         1  25    Type1   Poor

> patientdata[,2]             # 第2列数据
[1] 25 34 28 52
> patientdata[c("patientId", "age")]        
Error in `[.data.frame`(patientdata, c("patientId", "age")) : 
  undefined columns selected

> patientdata[c("patientID", "age")]        # 取出patientId、age这2列数据
  patientID age
1         1  25
2         2  34
3         3  28
4         4  52

> patientdata$age             # 使用$取出列的数据
[1] 25 34 28 52

# 如果你想生成糖尿病类型变量diabetes和病情变量status的列联表，使用以下代码即可:
> patientdata['age']
  age
1  25
2  34
3  28
4  52
> table(patientdata$diabetes, patientdata$status)

        Excellent Improved Poor
  Type1         1        0    2
  Type2         0        1    0

# 使用 row.names 来指定data.frame数据框的行名
> patientdata <- data.frame(patientID, age, diabetes,
+                           status, row.names=patientID)
> patientdata
  patientID age diabetes    status
1         1  25    Type1      Poor
2         2  34    Type2  Improved
3         3  28    Type1 Excellent
4         4  52    Type1      Poor

# 因子 指定顺序
> status <- factor(status, order=TRUE,
+                  levels=c("Poor", "Improved", "Excellent"))
> status
[1] Poor      Improved  Excellent Poor


# 因子 在数据框中的使用  str(patientdata)   summary(patientdata)
> patientID <- c(1, 2, 3, 4)
> age <- c(25, 34, 28, 52)
> diabetes <- c("Type1", "Type2", "Type1", "Type1")
> status <- c("Poor", "Improved", "Excellent", "Poor")
> diabetes <- factor(diabetes)
> status <- factor(status, order=TRUE)
> patientdata <- data.frame(patientID, age, diabetes, status)
> patientdata
  patientID age diabetes    status
1         1  25    Type1      Poor
2         2  34    Type2  Improved
3         3  28    Type1 Excellent
4         4  52    Type1      Poor
> str(patientdata)
'data.frame':    4 obs. of  4 variables:
 $ patientID: num  1 2 3 4
 $ age      : num  25 34 28 52
 $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1
 $ status   : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 2 1 3
> summary(patientdata)
   patientID         age         diabetes       status 
 Min.   :1.00   Min.   :25.00   Type1:3   Excellent:1  
 1st Qu.:1.75   1st Qu.:27.25   Type2:1   Improved :1  
 Median :2.50   Median :31.00             Poor     :2  
 Mean   :2.50   Mean   :34.75                          
 3rd Qu.:3.25   3rd Qu.:38.50                          
 Max.   :4.00   Max.   :52.00

2.3.1. 创建数据框

> manager <- c(1, 2, 3, 4, 5)
> date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")
> country <- c("US", "US", "UK", "UK", "UK")
> gender <- c("M", "F", "F", "M", "F")
> age <- c(32, 45, 25, 39, 99)
> q1 <- c(5, 3, 3, 3, 2)
> q2 <- c(4, 5, 5, 3, 2)
> q3 <- c(5, 2, 5, 4, 1)
> q4 <- c(5, 5, 5, NA, 2)
> q5 <- c(5, 5, 2, NA, 1)
> leadership <- data.frame(manager, date, country, gender, age, q1, q2, q3, q4, q5, stringsAsFactors=FALSE)
> leadership
  manager     date country gender age q1 q2 q3 q4 q5
1       1 10/24/08      US      M  32  5  4  5  5  5
2       2 10/28/08      US      F  45  3  5  2  5  5
3       3  10/1/08      UK      F  25  3  5  5  5  2
4       4 10/12/08      UK      M  39  3  3  4 NA NA
5       5   5/1/09      UK      F  99  2  2  1  2  1

2.3.2. 创建新变量

> mydata<-data.frame(x1 = c(2, 2, 6, 4), x2 = c(3, 4, 2, 8))
> mydata
  x1 x2
1  2  3
2  2  4
3  6  2
4  4  8
# 方式1
> mydata$sumx  <-  mydata$x1 + mydata$x2
> mydata$meanx <- (mydata$x1 + mydata$x2)/2
> mydata
  x1 x2 sumx meanx
1  2  3    5   2.5
2  2  4    6   3.0
3  6  2    8   4.0
4  4  8   12   6.0
# 方式2
> mydata <- transform(mydata, sumx = x1+x2, meanx = (x1 + x2)/2)
> mydata
  x1 x2 sumx meanx
1  2  3    5   2.5
2  2  4    6   3.0
3  6  2    8   4.0
4  4  8   12   6.0

2.3.3. 变量的重编码

重编码涉及根据同一个变量和/或其他变量的现有值创建新值的过程。举例来说，你可能想: 

将一个连续型变量修改为一组类别值;
将误编码的值替换为正确值;
基于一组分数线创建一个表示及格/不及格的变量。

逻辑运算符：与&、或|、非!、测试x是否为TRUE isTRUE(x)

> leadership
  manager     date country gender age q1 q2 q3 q4 q5
1       1 10/24/08      US      M  32  5  4  5  5  5
2       2 10/28/08      US      F  45  3  5  2  5  5
3       3  10/1/08      UK      F  25  3  5  5  5  2
4       4 10/12/08      UK      M  39  3  3  4 NA NA
5       5   5/1/09      UK      F  99  2  2  1  2  1
> leadership$age[leadership$age == 99] <- NA            # ==判断，年龄99的，重新填充值为NA
> leadership
  manager     date country gender age q1 q2 q3 q4 q5
1       1 10/24/08      US      M  32  5  4  5  5  5
2       2 10/28/08      US      F  45  3  5  2  5  5
3       3  10/1/08      UK      F  25  3  5  5  5  2
4       4 10/12/08      UK      M  39  3  3  4 NA NA
5       5   5/1/09      UK      F  NA  2  2  1  2  1

# 根据条件创建新的一列
> leadership$agecat[leadership$age  > 75]  <- "Elder"
> leadership$agecat[leadership$age >= 55 & leadership$age <= 75]  <- "Middle Aged"
> leadership$agecat[leadership$age  < 55]  <- "Young"
> leadership
  manager     date country gender age q1 q2 q3 q4 q5 agecat
1       1 10/24/08      US      M  32  5  4  5  5  5  Young
2       2 10/28/08      US      F  45  3  5  2  5  5  Young
3       3  10/1/08      UK      F  25  3  5  5  5  2  Young
4       4 10/12/08      UK      M  39  3  3  4 NA NA  Young
5       5   5/1/09      UK      F  NA  2  2  1  2  1   <NA>

2.3.4. 列重命名

> names(leadership)[2] <- "testDate"
> names(leadership)[6:10] <- c("item1", "item2", "item3", "item4", "item5")

2.3.5. 缺失值

> y <- c(1, 2, 3, NA)
> is.na(y)
[1] FALSE FALSE FALSE  TRUE

# 忽略缺失值 sum(x, na.rm=TRUE)  或者  na.omit(leadership)
> y <- c(1, 2, 3, NA)
> is.na(y)
[1] FALSE FALSE FALSE  TRUE
> is.na(y)[4]
[1] TRUE
> x <- c(1, 2, NA, 3)
> y <- x[1] + x[2] + x[3] + x[4]
> y
[1] NA
> z <- sum(x)
> z
[1] NA
> y <- sum(x, na.rm=TRUE)
> y
[1] 6

> leadership
  manager     date country gender age q1 q2 q3 q4 q5 agecat
1       1 10/24/08      US      M  32  5  4  5  5  5  Young
2       2 10/28/08      US      F  45  3  5  2  5  5  Young
3       3  10/1/08      UK      F  25  3  5  5  5  2  Young
4       4 10/12/08      UK      M  39  3  3  4 NA NA  Young
5       5   5/1/09      UK      F  NA  2  2  1  2  1   <NA>
> na.omit(leadership)
  manager     date country gender age q1 q2 q3 q4 q5 agecat
1       1 10/24/08      US      M  32  5  4  5  5  5  Young
2       2 10/28/08      US      F  45  3  5  2  5  5  Young
3       3  10/1/08      UK      F  25  3  5  5  5  2  Young

2.3.6. 日期值

日期值通常以字符串的形式输入到R中，然后转化为以数值形式存储的日期变量。函数 as.Date()用于执行这种转化。其语法为as.Date(x, “input_format”)，其中x是字符型数据，input_format则给出了用于读入日期的适当格式(见表4-4)。

日期值的默认输入格式为yyyy-mm-dd。

日期值的默认输入格式为yyyy-mm-dd。

> strDates <- c("01/05/1965", "08/16/1975")
> dates <- as.Date(strDates, "%m/%d/%Y")
> dates
[1] "1965-01-05" "1975-08-16"
> leadership
  manager     date country gender age q1 q2 q3 q4 q5 agecat
1       1 10/24/08      US      M  32  5  4  5  5  5  Young
2       2 10/28/08      US      F  45  3  5  2  5  5  Young
3       3  10/1/08      UK      F  25  3  5  5  5  2  Young
4       4 10/12/08      UK      M  39  3  3  4 NA NA  Young
5       5   5/1/09      UK      F  NA  2  2  1  2  1   <NA>
# 日期格式转换
> leadership$date <- as.Date(leadership$date, '%m/%d/%y')
> leadership
  manager       date country gender age q1 q2 q3 q4 q5 agecat
1       1 2008-10-24      US      M  32  5  4  5  5  5  Young
2       2 2008-10-28      US      F  45  3  5  2  5  5  Young
3       3 2008-10-01      UK      F  25  3  5  5  5  2  Young
4       4 2008-10-12      UK      M  39  3  3  4 NA NA  Young
5       5 2009-05-01      UK      F  NA  2  2  1  2  1   <NA>

有两个函数对于处理时间戳数据特别实用。Sys.Date()可以返回当天的日期，而date()则返回当前的日期和时间。

# Sys.Date() 与 date() 函数
> Sys.Date()
[1] "2023-11-28"
> str(Sys.Date)
function ()  
> str(Sys.Date())
 Date[1:1], format: "2023-11-28"
> date()
[1] "Tue Nov 28 17:29:09 2023"
> format(date(), '%Y-%m-%d')
Error in format.default(date(), "%Y-%m-%d") : invalid 'trim' argument
> format(Sys.Date(), '%Y-%m-%d')
[1] "2023-11-28"
> format(Sys.Date(), '%Y/%m/%d')
[1] "2023/11/28"
> str(format(Sys.Date(), '%Y/%m/%d'))
 chr "2023/11/28"

# 日期差
> startdate <- as.Date("2004-02-13")
> enddate   <- as.Date("2011-01-22")
> days      <- enddate - startdate
> days
Time difference of 2535 days


# 间隔多少周？
> today <- Sys.Date()
> kelvin   <- as.Date("1990-05-10")
> difftime(today, kelvin, units="weeks")
Time difference of 1750.714 weeks


# 将日期转为字符串格式
> dates
[1] "1965-01-05" "1975-08-16"
> str(dates)
 Date[1:2], format: "1965-01-05" "1975-08-16"
> as.character(dates)
[1] "1965-01-05" "1975-08-16"
> str(as.character(dates))
 chr [1:2] "1965-01-05" "1975-08-16"

2.3.7. 数据框排序

> leadership[order(leadership$age)]
  country manager gender       date age
1      US       1      M 2008-10-24  32
2      US       2      F 2008-10-28  45
3      UK       3      F 2008-10-01  25
4      UK       4      M 2008-10-12  39
5      UK       5      F 2009-05-01  NA

> leadership[order(leadership$age),]        # 这里的逗号，少了的话差异还是很大的，貌似是截取了！
  manager       date country gender age q1 q2 q3 q4 q5 agecat
3       3 2008-10-01      UK      F  25  3  5  5  5  2  Young
1       1 2008-10-24      US      M  32  5  4  5  5  5  Young
4       4 2008-10-12      UK      M  39  3  3  4 NA NA  Young
2       2 2008-10-28      US      F  45  3  5  2  5  5  Young
5       5 2009-05-01      UK      F  NA  2  2  1  2  1   <NA>

> newdata <-leadership[order(gender, -age),]        # 2列排序，正序和倒序
> newdata
  manager       date country gender age q1 q2 q3 q4 q5 agecat
5       5 2009-05-01      UK      F  NA  2  2  1  2  1   <NA>
2       2 2008-10-28      US      F  45  3  5  2  5  5  Young
3       3 2008-10-01      UK      F  25  3  5  5  5  2  Young
4       4 2008-10-12      UK      M  39  3  3  4 NA NA  Young
1       1 2008-10-24      US      M  32  5  4  5  5  5  Young

2.3.8. 数据框合并(合并沪深300和中证500收盘价日历)

merge()函数。在多数情况下，两个数据框是通过一个或多个共有变量进行联结的(即一种内联结，inner join)。

# 读取沪深300收盘价
> sh300 <- read.csv("SH510300-收盘价.csv")
> head(sh300)
       date  close
1 2012/5/28 2.2020
2 2012/5/29 2.2359
3 2012/5/30 2.2291
4 2012/5/31 2.2240
5  2012/6/1 2.2240
6  2012/6/4 2.1631

# 读取中证500收盘价
> sh500 <- read.csv("SH510500-收盘价.csv")
> head(sh500)
       date  close
1 2013/3/15 3.0215
2 2013/3/18 2.9717
3 2013/3/19 2.9904
4 2013/3/20 3.0683
5 2013/3/21 3.0994
6 2013/3/22 3.1119

# 将2个dataframe合并（按照date列合并，没有的数据会自动补充为NA）， merge默认是inner join，需要加 all = TRUE 参数
> merged_df <- merge(sh300, sh500, by = "date", all = TRUE)
> head(merged_df)
        date close.x close.y
1 2012/10/10  1.9923      NA
2 2012/10/11  1.9788      NA
3 2012/10/12  1.9771      NA
4 2012/10/15  1.9703      NA
5 2012/10/16  1.9712      NA
6 2012/10/17  1.9788      NA

# 查看合并后的总行数
> nrow(merged_df)
[1] 2797
# 原沪深300行数
> nrow(sh300)
[1] 2797
# 原中证500行数
> nrow(sh500)
[1] 2600

# 如果直接按照date列进行排序，是错的，可见是从 2012/10/10 开始。（应该是沪深300的2012-05-28） 需要对date列进行转日期格式。
> merged_df <- merged_df[order(merged_df$date),]
> head(merged_df)
        date close.x close.y
1 2012/10/10  1.9923      NA
2 2012/10/11  1.9788      NA
3 2012/10/12  1.9771      NA
4 2012/10/15  1.9703      NA
5 2012/10/16  1.9712      NA
6 2012/10/17  1.9788      NA
# 日期格式转换
> merged_df$date <- as.Date(merged_df$date, '%Y/%m/%d')
> head(merged_df)
        date close.x close.y
1 2012-10-10  1.9923      NA
2 2012-10-11  1.9788      NA
3 2012-10-12  1.9771      NA
4 2012-10-15  1.9703      NA
5 2012-10-16  1.9712      NA
6 2012-10-17  1.9788      NA
# 对数据框排序
> merged_df <- merged_df[order(merged_df$date),]
> head(merged_df)
         date close.x close.y
62 2012-05-28  2.2020      NA
63 2012-05-29  2.2359      NA
64 2012-05-30  2.2291      NA
65 2012-05-31  2.2240      NA
66 2012-06-01  2.2240      NA
81 2012-06-04  2.1631      NA

2.3.9. 数据框子集

> d1 <- read.csv("SH510300.csv")
> head(d1)
        date                uuid     date.1     volume   open   high    low  close     chg
1 2012-05-28 SH510300|2012-05-28 2012-05-28 1277518769 2.1572 2.2046 2.1513 2.2020  0.0255
2 2012-05-29 SH510300|2012-05-29 2012-05-29  714949008 2.2004 2.2503 2.2004 2.2359  0.0339
3 2012-05-30 SH510300|2012-05-30 2012-05-30  265887198 2.2342 2.2384 2.2266 2.2291 -0.0068
4 2012-05-31 SH510300|2012-05-31 2012-05-31  178155984 2.2164 2.2367 2.2097 2.2240 -0.0051
5 2012-06-01 SH510300|2012-06-01 2012-06-01  179350035 2.2232 2.2494 2.2156 2.2240  0.0000
6 2012-06-04 SH510300|2012-06-04 2012-06-04  546074272 2.1995 2.2020 2.1606 2.1631 -0.0609
  percent turnoverrate amount
1    1.17        10.45     NA
2    1.54         5.85     NA
3   -0.30         2.17     NA
4   -0.23         1.46     NA
5    0.00         1.47     NA
6   -2.74         4.47     NA
# 取1，3，5行，以及 "date", "close" 列
> d2 <- d1[c(1,3,5), c("date", "close")]
> d2
        date  close
1 2012-05-28 2.2020
3 2012-05-30 2.2291
5 2012-06-01 2.2240


# 其他一些用法
newdata <- leadership[leadership$gender=="M" & leadership$age > 30,]

leadership$date <- as.Date(leadership$date, "%m/%d/%y")
startdate <- as.Date("2009-01-01")
enddate <- as.Date("2009-10-31")
newdata <- leadership[which(leadership$date >= startdate & leadership$date <= enddate),]

newdata <- subset(leadership, age >= 35 | age < 24, select=c(q1, q2, q3, q4)) # 选择所有age值大于等于35或age值 小于24的行，保留了变量q1到q4
newdata <- subset(leadership, gender == 'M' | age > 25, select=gender:q4) # 选择所有25岁以上的男性，并保留了变量gender 到q4(gender、q4和其间所有列)

2.3.10. 随机抽样

# 读取数据
> d1 <- read.csv("SH510300.csv")
> head(d1)
        date                uuid     date.1     volume   open   high    low  close     chg
1 2012-05-28 SH510300|2012-05-28 2012-05-28 1277518769 2.1572 2.2046 2.1513 2.2020  0.0255
2 2012-05-29 SH510300|2012-05-29 2012-05-29  714949008 2.2004 2.2503 2.2004 2.2359  0.0339
3 2012-05-30 SH510300|2012-05-30 2012-05-30  265887198 2.2342 2.2384 2.2266 2.2291 -0.0068
4 2012-05-31 SH510300|2012-05-31 2012-05-31  178155984 2.2164 2.2367 2.2097 .2240 -0.0051
5 2012-06-01 SH510300|2012-06-01 2012-06-01  179350035 2.2232 2.2494 2.2156 2.2240  0.0000
6 2012-06-04 SH510300|2012-06-04 2012-06-04  546074272 2.1995 2.2020 2.1606 2.1631 -0.0609
  percent turnoverrate amount
1    1.17        10.45     NA
2    1.54         5.85     NA
3   -0.30         2.17     NA
4   -0.23         1.46     NA
5    0.00         1.47     NA
6   -2.74         4.47     NA

# 查看总行数
> nrow(d1)
[1] 2797

# 从 1:nrow(d1) 这个向量里面读取3个，不放回抽样
> s1 <- sample(1:nrow(d1), 3, replace = FALSE)
> s1
[1] 761 195 116
# 直接从数据集抽样语法：
> mysample <- d1[sample(1:nrow(d1), 3, replace=FALSE),]
> mysample
           date                uuid     date.1     volume   open   high    low  close     chg
808  2015-09-18 SH510300|2015-09-18 2015-09-18  258148381 2.9232 2.9347 2.8877 2.9046 -0.0008
1880 2020-02-18 SH510300|2020-02-18 2020-02-18  709950982 3.8817 3.8865 3.8386 3.8645 -0.0239
2772 2023-10-20 SH510300|2023-10-20 2023-10-20 1740446164 3.5830 3.6000 3.5650 3.5820 -0.0180
     percent turnoverrate     amount
808    -0.03         4.42         NA
1880   -0.61         0.00 2867046795
2772   -0.50         0.00 6233727376

# 抽样，是在 1:nrow(d1) 不放回，不影响原来的d1数据集
> nrow(d1)
[1] 2797

2.3.11. sql操作数据框

> install.packages("sqldf")
> install.packages("RSQLite")
> library(sqldf)
Loading required package: RSQLite
# 从数据框 sh300 提取 close > 3 的行，并按照close倒序排列。参数row.names=TRUE将原始数据框中的行名延续到了新数据框中。
> newdf <- sqldf("select * from sh300 where close > 3 order by close desc", row.names = TRUE)
> head(newdf)
          date  close
2123 2021/2/10 5.6294
2125 2021/2/19 5.6188
2124 2021/2/18 5.5877
2122  2021/2/9 5.5179
2111 2021/1/25 5.4588
2102 2021/1/12 5.4231
> nrow(newdf)
[1] 1925

2.3.12. 转置t

行列名对换

> cars <- mtcars[1:5,1:4]
> cars
                  mpg cyl disp  hp
Mazda RX4          21   6  160 110
Mazda RX4 Wag      21   6  160 110
Datsun 710         23   4  108  93
Hornet 4 Drive     21   6  258 110
Hornet Sportabout  19   8  360 175
> t(cars)
     Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout
mpg         21            21         23             21                19
cyl          6             6          4              6                 8
disp       160           160        108            258               360
hp         110           110         93            110               175

2.3.13. 聚合aggregate

类似按照条件分组聚合。

> mtcars
                    mpg cyl disp  hp drat  wt qsec vs am gear carb
Mazda RX4            21   6  160 110  3.9 2.6   16  0  1    4    4
Mazda RX4 Wag        21   6  160 110  3.9 2.9   17  0  1    4    4
Datsun 710           23   4  108  93  3.9 2.3   19  1  1    4    1
Hornet 4 Drive       21   6  258 110  3.1 3.2   19  1  0    3    1
Hornet Sportabout    19   8  360 175  3.1 3.4   17  0  0    3    2
Valiant              18   6  225 105  2.8 3.5   20  1  0    3    1
Duster 360           14   8  360 245  3.2 3.6   16  0  0    3    4
Merc 240D            24   4  147  62  3.7 3.2   20  1  0    4    2
Merc 230             23   4  141  95  3.9 3.1   23  1  0    4    2
Merc 280             19   6  168 123  3.9 3.4   18  1  0    4    4
Merc 280C            18   6  168 123  3.9 3.4   19  1  0    4    4
Merc 450SE           16   8  276 180  3.1 4.1   17  0  0    3    3
Merc 450SL           17   8  276 180  3.1 3.7   18  0  0    3    3
Merc 450SLC          15   8  276 180  3.1 3.8   18  0  0    3    3
Cadillac Fleetwood   10   8  472 205  2.9 5.2   18  0  0    3    4
Lincoln Continental  10   8  460 215  3.0 5.4   18  0  0    3    4
Chrysler Imperial    15   8  440 230  3.2 5.3   17  0  0    3    4
Fiat 128             32   4   79  66  4.1 2.2   19  1  1    4    1
Honda Civic          30   4   76  52  4.9 1.6   19  1  1    4    2
Toyota Corolla       34   4   71  65  4.2 1.8   20  1  1    4    1
Toyota Corona        22   4  120  97  3.7 2.5   20  1  0    3    1
Dodge Challenger     16   8  318 150  2.8 3.5   17  0  0    3    2
AMC Javelin          15   8  304 150  3.1 3.4   17  0  0    3    2
Camaro Z28           13   8  350 245  3.7 3.8   15  0  0    3    4
Pontiac Firebird     19   8  400 175  3.1 3.8   17  0  0    3    2
Fiat X1-9            27   4   79  66  4.1 1.9   19  1  1    4    1
Porsche 914-2        26   4  120  91  4.4 2.1   17  0  1    5    2
Lotus Europa         30   4   95 113  3.8 1.5   17  1  1    5    2
Ford Pantera L       16   8  351 264  4.2 3.2   14  0  1    5    4
Ferrari Dino         20   6  145 175  3.6 2.8   16  0  1    5    6
Maserati Bora        15   8  301 335  3.5 3.6   15  0  1    5    8
Volvo 142E           21   4  121 109  4.1 2.8   19  1  1    4    2
# 在结果中，Group.1表示汽缸数量(4、6或8)，Group.2代表挡位数(3、4或5)。举例来说， 拥有4个汽缸和3个挡位车型的每加仑汽油行驶英里数(mpg)均值为22。
# 跟书上数据不同，可能是小数点位没有恢复设置。
# 在使用aggregate()函数的时候，by中的变量必须在一个列表中(即使只有一个变量)。你可以在列表中为各组声明自定义的名称，例如by=list(Group.cyl=cyl, Group.gears=gear)。
> aggdata <-aggregate(mtcars, by=list(mtcars$cyl,mtcars$gear), FUN=mean, na.rm=TRUE)
> aggdata
  Group.1 Group.2 mpg cyl disp  hp drat  wt qsec  vs   am gear carb
1       4       3  22   4  120  97  3.7 2.5   20 1.0 0.00    3  1.0
2       6       3  20   6  242 108  2.9 3.3   20 1.0 0.00    3  1.0
3       8       3  15   8  358 194  3.1 4.1   17 0.0 0.00    3  3.1
4       4       4  27   4  103  76  4.1 2.4   20 1.0 0.75    4  1.5
5       6       4  20   6  164 116  3.9 3.1   18 0.5 0.50    4  4.0
6       4       5  28   4  108 102  4.1 1.8   17 0.5 1.00    5  2.0
7       6       5  20   6  145 175  3.6 2.8   16 0.0 1.00    5  6.0
8       8       5  15   8  326 300  3.9 3.4   15 0.0 1.00    5  6.0

2.3.14. reshape2

> ID <- c(1,1,2,2)
> Time <- (1,2,1,2)
Error: unexpected ',' in "Time <- (1,"
> Time <- c(1,2,1,2)
> X1 <- c(5,3,6,2)
> X2 <- c(6,5,1,4)
> mydata <- data.frame(ID, Time, X1, X2)
> mydata
  ID Time X1 X2
1  1    1  5  6
2  1    2  3  5
3  2    1  6  1
4  2    2  2  4
> library(reshape2)
> md <- melt(mydata, id=c("ID", "Time"))
> md
  ID Time variable value
1  1    1       X1     5
2  1    2       X1     3
3  2    1       X1     6
4  2    2       X1     2
5  1    1       X2     6
6  1    2       X2     5
7  2    1       X2     1
8  2    2       X2     4

2.3.15. 其他常用

2.3.15.1. 区间均分：

从from到to，平均分成10份

> min(sh500$close)
[1] 2.816
> max(sh500$close)
[1] 10.216
> seq(from=min(sh500$close), to=max(sh500$close), length.out = 11)  # 从from到to，平均分成10份
 [1]  2.8160  3.5560  4.2959  5.0359  5.7759  6.5159  7.2558  7.9958  8.7358  9.4757 10.2157

2.3.15.2. 统计区间个数table(cut())

场景：将沪深300的收盘价，均匀分10份，每份是多少个，各份区间大小？

# 最小值
> min300 <- min(sh300$close)
> min300  
[1] 1.8139

# 最大值
> max300 <- max(sh300$close)
> max300
[1] 5.6294

# 从[最小:最大]，生成11个均分数（即10个区间）
> myseq <- seq(min300, max300, length.out = 11)
> myseq
 [1] 1.8139 2.1955 2.5770 2.9585 3.3401 3.7217 4.1032 4.4848 4.8663 5.2478 5.6294

# 统计收盘价在10个区间内的个数
> mytable <- table(cut(sh300$close, breaks = myseq))
> mytable

 (1.81,2.2]  (2.2,2.58] (2.58,2.96] (2.96,3.34] (3.34,3.72]  (3.72,4.1]  (4.1,4.48] 
        526          85         200         447         469         523         145 
(4.48,4.87] (4.87,5.25] (5.25,5.63] 
        245         126          30 
> mytable[1]
(1.81,2.2] 
       526

# 绘制条形图
> barplot(mytable)

3. 数据标准化

默认情况下，函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化:

newdata <- scale(mydata)

要对每一列进行任意均值和标准差的标准化，可以使用如下的代码:

newdata <- scale(mydata)*SD + M

其中的M是想要的均值，SD为想要的标准差。在非数值型的列上使用scale()函数将会报错。

要对指定列而不是整个矩阵或数据框进行标准化，你可以使用这样的代码:

newdata <- transform(mydata, myvar = scale(myvar)*10+50)

此句将变量myvar标准化为均值50、标准差为10的变量。你将在5.3节数据处理问题的解决方法中用到scale()函数。

3.1. 案例-学生成绩排名

一组学生参加了数学、科 10 学和英语考试。为了给所有学生确定一个单一的成绩衡量指标，需要将这些科目的成绩组合起来。
另外，你还想将前20%的学生评定为A，接下来20%的学生评定为B，依次类推。最后，你希望按字母顺序对学生排序。数据如表5-1所示。

说明：

按照数值，横向的数学、科学、英语是无法直接比较的，需要对数据进行标准化处理。

# options(digits=2)限定了输出小数点后数字的 位数
> options(digits=2)

# 准备数据框
> Student <- c("John Davis", "Angela Williams", "Bullwinkle Moose",
+              "David Jones", "Janice Markhammer", "Cheryl Cushing",
+              "Reuven Ytzrhak", "Greg Knox", "Joel England",
+              "Mary Rayburn")
> Math <- c(502, 600, 412, 358, 495, 512, 410, 625, 573, 522)
> Science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86)
> English <- c(25, 22, 18, 15, 20, 28, 15, 30, 27, 18)
> roster <- data.frame(Student, Math, Science, English,
+                      stringsAsFactors=FALSE)
> roster
             Student Math Science English
1         John Davis  502      95      25
2    Angela Williams  600      99      22
3   Bullwinkle Moose  412      80      18
4        David Jones  358      82      15
5  Janice Markhammer  495      75      20
6     Cheryl Cushing  512      85      28
7     Reuven Ytzrhak  410      80      15
8          Greg Knox  625      95      30
9       Joel England  573      89      27
10      Mary Rayburn  522      86      18

# 对2:4列进行标准化处理，以便于横向比较。函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化。
> z <- scale(roster[,2:4])
> z
        Math Science English
 [1,]  0.013   1.078   0.587
 [2,]  1.143   1.591   0.037
 [3,] -1.026  -0.847  -0.697
 [4,] -1.649  -0.590  -1.247
 [5,] -0.068  -1.489  -0.330
 [6,]  0.128  -0.205   1.137
 [7,] -1.049  -0.847  -1.247
 [8,]  1.432   1.078   1.504
 [9,]  0.832   0.308   0.954
[10,]  0.243  -0.077  -0.697
attr(,"scaled:center")
   Math Science English 
    501      87      22 
attr(,"scaled:scale")
   Math Science English 
   86.7     7.8     5.5 

# 通过函数mean()来计算各行的均值以获得综合得分，并使用函数cbind()将其添加到花名册中
# apply函数常用来代替for循环。apply函数可以对数据（矩阵、数据框、数组)，按行或列循环计算，对子元素进行迭代，并把子元素以参数传递的形式给自定义的FUN函数中，并以返回计算结果。
# apply(X, MARGIN, FUN, ...) X:数据        MARGIN: 按行或按按列计算，1代表按行，2代表按列        FUN: 自定义函数
> score <- apply(z, 1, mean)
> score
 [1]  0.56  0.92 -0.86 -1.16 -0.63  0.35 -1.05  1.34  0.70 -0.18
> roster <- cbind(roster, score)

# quantile，是计算百分位数。计算结果的解读是：如果 标准化后的分值>0.74，那么这个分值就超过了80%的
> y <- quantile(score, c(.8,.6,.4,.2))
> y
  80%   60%   40%   20% 
 0.74  0.44 -0.36 -0.89 

# 对 标准化分值 判断是落在了哪个区间。
> roster$grade[score >= y[1]] <- "A"
> roster$grade[score < y[1] & score >= y[2]] <- "B"
> roster$grade[score < y[2] & score >= y[3]] <- "C"
> roster$grade[score < y[3] & score >= y[4]] <- "D"
> roster$grade[score < y[4]] <- "F"

# 将Student列按照空格拆开。把 strsplit()应用到一个字符串组成的向量上会返回一个列表
> name <- strsplit((roster$Student), " ")
> name
[[1]]
[1] "John"  "Davis"

[[2]]
[1] "Angela"   "Williams"

[[3]]
[1] "Bullwinkle" "Moose"
....
# 函数sapply()提取列表中每个成分的第一个元素，放入一个储存名字 的向量Firstname，并提取每个成分的第二个元素，放入一个储存姓氏的向量Lastname。
# "[" 是一个可以提取某个对象的一部分的函数——在这里它是用来提取列表name各成分中的第一个或第二个元素的。
> Firstname <- sapply(name, "[", 1)
> Lastname <- sapply(name, "[", 2)
# 在数据框的左侧加入 Firstname、Lastname 2列
> roster <- cbind(Firstname,Lastname, roster[,-1])
> roster
    Firstname   Lastname Math Science English score grade
1        John      Davis  502      95      25  0.56     B
2      Angela   Williams  600      99      22  0.92     A
3  Bullwinkle      Moose  412      80      18 -0.86     D
4       David      Jones  358      82      15 -1.16     F
5      Janice Markhammer  495      75      20 -0.63     D
6      Cheryl    Cushing  512      85      28  0.35     C
7      Reuven    Ytzrhak  410      80      15 -1.05     F
8        Greg       Knox  625      95      30  1.34     A
9        Joel    England  573      89      27  0.70     B
10       Mary    Rayburn  522      86      18 -0.18     C

# 根据Lastname、Firstname升序排列
> roster <- roster[order(Lastname,Firstname),]
> roster
    Firstname   Lastname Math Science English score grade
6      Cheryl    Cushing  512      85      28  0.35     C
1        John      Davis  502      95      25  0.56     B
9        Joel    England  573      89      27  0.70     B
4       David      Jones  358      82      15 -1.16     F
8        Greg       Knox  625      95      30  1.34     A
5      Janice Markhammer  495      75      20 -0.63     D
3  Bullwinkle      Moose  412      80      18 -0.86     D
10       Mary    Rayburn  522      86      18 -0.18     C
2      Angela   Williams  600      99      22  0.92     A
7      Reuven    Ytzrhak  410      80      15 -1.05     F

数学函数等

3.2. 数学函数

3.3. 统计函数

3.4. 概率函数

> x <- pretty(c(-3,3), 30)
> length(x)
[1] 31
> x
 [1] -3.0 -2.8 -2.6 -2.4 -2.2 -2.0 -1.8 -1.6 -1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2  0.0  0.2  0.4
[19]  0.6  0.8  1.0  1.2  1.4  1.6  1.8  2.0  2.2  2.4  2.6  2.8  3.0
> y <- dnorm(x)
> y
 [1] 0.004431848 0.007915452 0.013582969 0.022394530 0.035474593 0.053990967 0.078950158
 [8] 0.110920835 0.149727466 0.194186055 0.241970725 0.289691553 0.333224603 0.368270140
[15] 0.391042694 0.398942280 0.391042694 0.368270140 0.333224603 0.289691553 0.241970725
[22] 0.194186055 0.149727466 0.110920835 0.078950158 0.053990967 0.035474593 0.022394530
[29] 0.013582969 0.007915452 0.004431848
> plot(x, y,
+      type = "l",
+      xlab = "Normal Deviate",
+      ylab = "Density",
+      yaxs = "i"
+ )
>

3.5. 字符处理函数

3.6. 其他实用函数

4. 列表

> g <- "My First List"
> h <- c(25, 26, 18, 39)
> j <- matrix(1:10, nrow=5)
> k <- c("one", "two", "three")
> mylist <- list(title=g, ages=h, j, k)
> mylist
$title
[1] "My First List"

$ages
[1] 25 26 18 39

[[3]]
     [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10

[[4]]
[1] "one"   "two"   "three"

> mylist['title']
$title
[1] "My First List"

> mylist[3]    # 这种操作很奇怪，取出来的矩阵matrix无法直接取数操作，要用下面的方法，双[[]]
[[1]]
     [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10
# 你也可以通过在双重方括号中指明代表某个成分的数字或名称来访问列表中的元素。
> mylist[[3]]
     [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10
> mylist[[3]][2,2]
[1] 7

5. 数据输入&输出

# 通过edit输入
> mydata <- data.frame(age=numeric(0),
+                      gender=character(0), weight=numeric(0))
> mydata <- edit(mydata)
Error in check_for_XQuartz(file.path(R.home("modules"), "R_de.so")) : 
  X11 library is missing: install XQuartz from www.xquartz.org
> install.packages("XQuartz")
Warning in install.packages :
  package ‘XQuartz’ is not available for this version of R

A version of this package for your version of R might be available elsewhere,
see the ideas at
https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages

5.0.1. 读取、写入csv文件

# 读取csv文件，逗号分隔，列date作为行名（date作为行名，那date那一列就没了）
> sh510300 <- read.csv("SH510300.csv", header = TRUE, sep = ",", row.names = "date")
> head(sh510300)
                          uuid     date.1     volume   open   high    low  close     chg
2012-05-28 SH510300|2012-05-28 2012-05-28 1277518769 2.1572 2.2046 2.1513 2.2020  0.0255
2012-05-29 SH510300|2012-05-29 2012-05-29  714949008 2.2004 2.2503 2.2004 2.2359  0.0339
2012-05-30 SH510300|2012-05-30 2012-05-30  265887198 2.2342 2.2384 2.2266 2.2291 -0.0068
2012-05-31 SH510300|2012-05-31 2012-05-31  178155984 2.2164 2.2367 2.2097 2.2240 -0.0051
2012-06-01 SH510300|2012-06-01 2012-06-01  179350035 2.2232 2.2494 2.2156 2.2240  0.0000
2012-06-04 SH510300|2012-06-04 2012-06-04  546074272 2.1995 2.2020 2.1606 2.1631 -0.0609
> sh510300[,'date']
Error in `[.data.frame`(sh510300, , "date") : undefined columns selected

# 取出一行，2012-05-28这个日期的行数据
> sh510300['2012-05-28',]
                          uuid     date.1     volume   open   high    low close    chg percent
2012-05-28 SH510300|2012-05-28 2012-05-28 1277518769 2.1572 2.2046 2.1513 2.202 0.0255    1.17
           turnoverrate amount
2012-05-28        10.45     NA

# 写入csv文件
> write.csv(sh510300, "new_file.csv")

6. 画图

6.1. 收盘价日历图

1.事先已准备好“日期date-收盘价close”的csv文件

2.读取csv

3.将日期x轴进行类型转换

4.使用plot画图

> sh300 <- read.csv("SH510300-收盘价.csv")        # 读取csv数据
> head(sh300)
       date  close
1 2012/5/28 2.2020
2 2012/5/29 2.2359
3 2012/5/30 2.2291
4 2012/5/31 2.2240
5  2012/6/1 2.2240
6  2012/6/4 2.1631
> date300 <- as.Date(sh300$date, "%Y/%m/%d",)    # 将日期字符串转为日期格式
> plot(date300, sh300$close)                     # 画图

下面就是画出来的图：1、圆圈点太大；2、没有连线；3、x轴比较散；4、图是无交互式的，只能看（有很多调节参数，这里只是简单实用了plot函数，并没有进行低级调整。）

使用plot(date300, sh300$close, type = "b", lty = 1, pch = 20)

标题、cex缩放、x轴标题，y轴标题

plot(date300, sh300$close, type = "b", lty = 1, pch = 20, cex = 0.3, main="510300", xlab = "date", ylab = "close price")

关于生成的图片的尺寸，试了效果不好，还需要进一步研究。

6.2. 2图2y轴多元素

> x <- c(1:10)
> y <- x
> z <- 10/x  # 10.000000  5.000000  3.333333  2.500000  2.000000  1.666667  1.428571  1.250000  1.111111 1.000000
> opar <- par(no.readonly=TRUE)    # 添加参数no.readonly=TRUE可以生成一个可以修改的当前图形参数列表。将原始参数保留为副本opar，便于参数恢复
> par(mar=c(5, 4, 4, 8) + 0.1)     # mar以数值向量表示的边界大小，顺序为“下、左、上、右”，单位为英分1。默认值为 c(5, 4, 4, 2) + 0.1
> plot(x, y, type="b", pch=21, col="red", yaxt="n", lty=3, ann=FALSE)    
# 上句：x轴是向量x，y轴是向量y，pch21是空心圆点，col是red红色线条和点，yaxt n禁用默认生成的y轴，lty 3是dot点线，ann 逻辑值，是否使用默认的x、y轴标注注释
> lines(x, z, type="b", pch=22, col="blue", lty=2)
# 上句：x轴是向量x，y轴是向量z，pch 22是空心方块，col颜色是蓝色，lty 2是虚线
> axis(2, at=x, labels=x, col.axis="red", las=2) # 使用函数axis()来创建自定义的坐标轴，而非使用R中的默认坐标轴（下面有详细介绍）
# 2代表在左侧y轴。at 一个数值型向量，表示需要绘制刻度线的位置，从(1:10)都要绘制。
# labels 一个字符型向量，表示置于刻度线旁边的文字标签(如果为 NULL，则将直接使用 at 中的值)
# las 标签是否平行于(=0)或垂直于(=2)坐标轴
> axis(4, at=z, labels=round(z, digits=2), col.axis="blue", las=2, cex.axis=0.7, tck=-.01)
# 4代表右侧y轴。at代表的刻度（显示的数值需要用label画）。round(z, digits=2)取2位小数。col.axis蓝色坐标轴。las 垂直于(=2)坐标轴。cex.axis 0.7倍缩放。
# tck 刻度线的长度，以相对于绘图区域大小的分数表示(负值表示在图形外侧，正值表示在图形内侧，0 表示禁用刻度，1 表示绘制网格线);默认值为–0.01
> mtext("y=1/x", side=4, line=3, cex.lab=1, las=2, col="blue")
# side 指定用来放置文本的边。1=下，2=左，3=上，4=右。你可以指定参数 line=来内移或外移文本，随着值的增加，文本将外移。也可使用 adj=0 将文本向左下对齐，或使用 adj=1 右上对齐
> title("An Example of Creative Axes", xlab="X values", ylab="Y=X")
> par(opar)    # #恢复原始参数

绘制的结果：（值得说的是，随着每一行代码的执行，图上的线、轴、图例是逐渐丰富起来的！magic！）

可以使用函数 axis() 来创建自定义的坐标轴，而非使用R中的默认坐标轴。其格式为: axis(side, at=, labels=, pos=, lty=, col=, las=, tck=, …)

6.2.1. mtcars点图

一幅散点图(车重与每加仑汽油行驶英里数)的示例，各点均添加了标签(车型)

> attach(mtcars)
> plot(wt, mpg,main="Mileage vs. Car Weight",xlab="Weight", ylab="Mileage",pch=18, col="blue")
> text(wt, mpg,row.names(mtcars),cex=0.5, pos=4, col="red")
> detach(mtcars)

6.3. 条形图

> install.packages("vcd")
> head(Arthritis)
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked
> counts <- table(Arthritis$Improved)
> counts

  None   Some Marked 
    42     14     28 
> barplot(counts,
+         main="Simple Bar Plot",
+         xlab="Improvement", ylab="Frequency")
# 在这个case，barplot和plot函数绘制的图形是一样的。上面table()函数的作用是表格化。
> plot(Arthritis$Improved, main="Simple Bar Plot",
+      xlab="Improved", ylab="Frequency")

6.4. 分组条形图

> head(Arthritis)
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked
> counts <- table(Arthritis$Improved, Arthritis$Treatment)
> counts

         Placebo Treated
  None        29      13
  Some         7       7
  Marked       7      21
> # [pləˈsiːbəʊ]
> barplot(counts,
+         main="Grouped Bar Plot",
+         xlab="Treatment", ylab="Frequency",
+         col=c("red", "yellow", "green"),
+         legend=rownames(counts), beside=TRUE)

均值条形图：奇怪的概念

> states <- data.frame(state.region, state.x77)
> head(states)
           state.region Population Income Illiteracy Life.Exp Murder HS.Grad Frost   Area
Alabama           South       3615   3624        2.1    69.05   15.1    41.3    20  50708
Alaska             West        365   6315        1.5    69.31   11.3    66.7   152 566432
Arizona            West       2212   4530        1.8    70.55    7.8    58.1    15 113417
Arkansas          South       2110   3378        1.9    70.66   10.1    39.9    65  51945
California         West      21198   5114        1.1    71.71   10.3    62.6    20 156361
Colorado           West       2541   4884        0.7    72.06    6.8    63.9   166 103766
> means <- aggregate(states$Illiteracy, by=list(state.region), FUN=mean)
> means
        Group.1      x
1     Northeast 1.0000
2         South 1.7375
3 North Central 0.7000
4          West 1.0231
> barplot(means$x, names.arg=means$Group.1)
> title("Mean Illiteracy Rate")

6.5. 饼图

> means
        Group.1      x
1     Northeast 1.0000
2         South 1.7375
3 North Central 0.7000
4          West 1.0231

> labels <- paste(means$Group.1, round(means$x, digits = 3), sep = "=")
> labels
[1] "Northeast=1"       "South=1.738"       "North Central=0.7" "West=1.023"  
> pie(means$x, labels = labels)

6.6. 直方图

> par(mfrow=c(2,2))
> hist(mtcars$mpg)
> mtcars$mpg
 [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4 10.4 14.7 32.4 30.4
[20] 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7 15.0 21.4

# 参数breaks用于控制组的数量，也就是说会展示12个柱子，这样的话，如果是绘制收盘价区间分布，就不用那么复杂计算了。
> hist(mtcars$mpg,breaks=12,
+      col="red",
+      xlab="Miles Per Gallon",
+      main="Colored histogram with 12 bins")


# 沪深300收盘价分布直方图(图显示的内容还是比较少的，能看出来的还是收盘价集中在3-4元之间。)
> sh300 <- read.csv("SH510300-收盘价.csv")
> head(sh300)
       date  close
1 2012/5/28 2.2020
2 2012/5/29 2.2359
3 2012/5/30 2.2291
4 2012/5/31 2.2240
5  2012/6/1 2.2240
6  2012/6/4 2.1631
> hist(sh300$close, breaks = 10)> density(sh300$close)

Call:
    density.default(x = sh300$close)

Data: sh300$close (2790 obs.);    Bandwidth 'bw' = 0.1528

       x               y            
 Min.   :1.356   Min.   :0.0000252  
 1st Qu.:2.539   1st Qu.:0.0661411  
 Median :3.722   Median :0.1852631  
 Mean   :3.722   Mean   :0.2111115  
 3rd Qu.:4.905   3rd Qu.:0.3639130  
 Max.   :6.088   Max.   :0.5344925

> hist(mtcars$mpg,
+      freq=FALSE,
+      breaks=12,
+      col="red",
+      xlab="Miles Per Gallon",
+      main="Histogram, rug plot, density curve")
# 轴须图 （x轴上多）
> rug(jitter(mtcars$mpg))
> lines(density(mtcars$mpg), col="blue", lwd=2)
> density(mtcars$mpg)

Call:
    density.default(x = mtcars$mpg)

Data: mtcars$mpg (32 obs.);    Bandwidth 'bw' = 2.477

       x               y            
 Min.   : 2.97   Min.   :6.481e-05  
 1st Qu.:12.56   1st Qu.:5.461e-03  
 Median :22.15   Median :1.926e-02  
 Mean   :22.15   Mean   :2.604e-02  
 3rd Qu.:31.74   3rd Qu.:4.530e-02  
 Max.   :41.33   Max.   :6.795e-02

6.7. 核密度图

# 收盘价概率分布
> plot(density(sh300$close))
# 分成了6个区间？
> plot(density(sh300$close, cut = 5))

6.8. 点图

# 比较奇怪，点图的y轴数据是怎么来的？
> dotchart(mtcars$mpg, labels=row.names(mtcars), cex=.7,
         main="Gas Mileage for Car Models",
         xlab="Miles Per Gallon")

7. 统计分析

7.1. summary

> myvars <- c("mpg", "hp", "wt")
# summary()函数提供了最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计。
> summary(mtcars[myvars])
      mpg             hp              wt      
 Min.   :10.4   Min.   : 52.0   Min.   :1.51  
 1st Qu.:15.4   1st Qu.: 96.5   1st Qu.:2.58  
 Median :19.2   Median :123.0   Median :3.33  
 Mean   :20.1   Mean   :146.7   Mean   :3.22  
 3rd Qu.:22.8   3rd Qu.:180.0   3rd Qu.:3.61  
 Max.   :33.9   Max.   :335.0   Max.   :5.42

mean()、sd()、var()、min()、max()、median()、length()、range()和quantile()。函数fivenum()可返回图基五数总括(Tukey’s five-number
summary，即最小值、下四分位数、中位数、上四分位数和最大值)。

7.2. cor相关系数

> states<- state.x77[,1:6]
> states
               Population Income Illiteracy Life Exp Murder HS Grad
Alabama              3615   3624        2.1    69.05   15.1    41.3
Alaska                365   6315        1.5    69.31   11.3    66.7
Arizona              2212   4530        1.8    70.55    7.8    58.1
Arkansas             2110   3378        1.9    70.66   10.1    39.9
California          21198   5114        1.1    71.71   10.3    62.6
Colorado             2541   4884        0.7    72.06    6.8    63.9
......
> cor(states)
           Population   Income Illiteracy  Life Exp   Murder  HS Grad
Population   1.000000  0.20823    0.10762 -0.068052  0.34364 -0.09849
Income       0.208228  1.00000   -0.43708  0.340255 -0.23008  0.61993
Illiteracy   0.107622 -0.43708    1.00000 -0.588478  0.70298 -0.65719
Life Exp    -0.068052  0.34026   -0.58848  1.000000 -0.78085  0.58222
Murder       0.343643 -0.23008    0.70298 -0.780846  1.00000 -0.48797
HS Grad     -0.098490  0.61993   -0.65719  0.582216 -0.48797  1.00000
# 我们可以看到收入和高中毕业率之间存在很强的正相关，而文盲率和预期寿命之间存在很强的负相关。


# 请注意，在默认情况下得到的结果是一个方阵(所有变量之间两两计算相关)。你同样可以计算非方形的相关矩阵。观察以下示例:
> x <- states[,c("Population", "Income", "Illiteracy", "HS Grad")]
> y <- states[,c("Life Exp", "Murder")]
> cor(x,y)
            Life Exp   Murder
Population -0.068052  0.34364
Income      0.340255 -0.23008
Illiteracy -0.588478  0.70298
HS Grad     0.582216 -0.48797

7.3. 回归

回归分析都是统计学的核心。它其实是一个广义的概念，通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。通常，回归分析可以用来挑选与响应变量相关的解释变量，可以描述两者的关系，也可以生成一个等式，通过解释变量来预测响应变量。

你可能感兴趣的:(r语言,开发语言)

《R循环：深度解析与高效使用技巧》沐知全栈开发开发语言
《R循环：深度解析与高效使用技巧》引言R语言作为一种功能强大的统计计算和图形显示语言，被广泛应用于科研、数据分析、金融等领域。R循环是R语言中的核心概念之一，对于提高编程效率、处理复杂数据至关重要。本文将深度解析R循环，并介绍高效使用技巧，帮助读者更好地掌握R语言。一、R循环概述1.1什么是R循环R循环是指在R语言中，重复执行某个操作或代码段的过程。R循环包括for循环、while循环和repea
Github 2024-11-01 开源项目月报 Top19 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本月(2024-11-01统计)共有19个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目9TypeScript项目3JavaScript项目3Svelte项目1JupyterNotebook项目1Ruby项目1HTML项目1Rust项目1Java项目1C++项目1Go项目1Python中的算法实现集合创建周期：2831天
三分钟使用github的技巧小白学CS 安装/使用教程运维 github git
文章目录一、GitHub搜索技巧——找开发者二、GitHub搜索技巧——找项目三、in关键字限制搜索范围四、stars或fork数量去查找一、GitHub搜索技巧——找开发者搜索条件备注location:location:china，匹配用户填写的地址在chinalanguage:language:javascript，匹配开发语言为javascript的开发者followers:follower
java+vue+SpringBoo智慧旅游系统（程序+数据库+报告+部署教程+答辩指导）
源代码+数据库+LW文档（1万字以上）+开题报告+答辩稿ppt+部署教程+代码讲解+代码时间修改工具技术实现开发语言：后端：Java前端：vue框架：springboot数据库：mysql开发工具JDK版本：JDK1.8数据库：mysql数据库工具：Navicat开发软件：idea主要角色及功能介绍本次系统的用例图做出了十分明确的功能划分，在设计时可以有很好的设计思路进行设计和延展。（1）管理员用
鸿蒙仓颉语言开发实战教程：购物车页面
合集-仓颉教程(31)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
小程序领域开发语言的基础教程小程序开发2020 小程序开发语言 ai
小程序领域开发语言的基础教程：从0到1轻松入门关键词：小程序开发、WXML、WXSS、JavaScript、双线程模型、生命周期、组件化摘要：本文是针对小程序开发语言的零基础入门指南，通过生活类比、代码示例和实战案例，详细讲解小程序核心开发语言（WXML/WXSS/JavaScript）的原理、协作方式及实际应用。无论你是前端新手还是想转行小程序开发的小白，都能通过本文掌握小程序开发的“三板斧”，
R语言与C语言混合编程：在R语言中调用C语言函数数据探索 r语言 c语言开发语言 R语言
R语言与C语言混合编程：在R语言中调用C语言函数介绍：R语言是一种用于统计分析和数据可视化的高级编程语言，而C语言是一种通用的、强大的编程语言。在某些情况下，我们可能需要在R语言中调用C语言函数以提高性能或实现特定的功能。本文将介绍如何在R语言中调用C语言函数的方法，并提供相应的源代码示例。步骤：为了在R语言中调用C语言函数，我们需要执行以下步骤：编写C语言函数：首先，我们需要编写我们想要在R中调
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
r语言回归分析分类变量_R语言下的PSM分析分类变量处理与分析步骤 weixin_39715834 r语言回归分析分类变量 r语言清除变量
最近学习了PSM，我选择了用R去跑PSM，在这过程中遇到了许多问题，最后也都一一解决了，写下这个也是希望大家在遇到相同问题的时候能够得到帮助和启发，别的应该不会遇到太难的问题了哈哈。最近我也没做什么，录数据，或者说还在调整心态，最近遇到的事情也比较多，又或者说最近的心态比较乱，晚上也睡不好导致白天也比较烦躁，所以可能还是需要一段时间去好好调整，因此最近更新的也比较慢。不过还是会坚持的。问题阐述：1
R语言倾向性匹配得分（PSM）分析后端工程实践 r语言 java 开发语言 R语言
R语言倾向性匹配得分（PSM）分析倾向性匹配得分（PropensityScoreMatching,PSM）是一种常用的统计方法，用于处理观察研究中的选择性偏倚。它通过建立一个倾向性得分模型，将受试者分为处理组和对照组，以实现类似于随机对照试验的效果。本文将介绍如何使用R语言进行倾向性匹配得分分析，并提供相应的源代码。导入所需的R包在进行PSM分析之前，首先需要导入所需的R包。常用的包包括Match
HarmonyOS NEXT仓颉开发语言实战案例：外卖App 幽蓝计划开发语言 harmonyos
各位周末好，今天为大家来仓颉语言外卖App的实战分享。我们可以先分析一下页面的布局结构，它是由导航栏和List容器组成的。幽蓝君目前依然没有找到仓颉语言导航栏的系统组件，还是要自定义，这个导航栏有三部分内容，可以使用两端对齐，要注意的是，如果需要中间部分在页面中间需要两端的内容宽度相同。导航栏和页面的布局结构代码如下：Column{Row{Text('幽蓝外卖').fontColor(Color.
HarmonyOS NEXT仓颉开发语言实现画板案例营养师老鲜 harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
鸿蒙Next仓颉语言开发实战教程：店铺详情页杨凌晨 harmonyos 华为
合集-仓颉教程(27)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
HarmonyOS NEXT仓颉开发语言实战案例：动态广场 SSA丝社APP harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
高效主机发现与端口枚举：fscan工具实战指南 Bruce_xiaowei 笔记总结经验网络安全 fscan 信息搜集
高效主机发现与端口枚举：fscan工具实战指南在网络安全领域，主机发现与端口枚举是渗透测试和信息收集的基础环节。本文将深入探讨fscan这一高效工具的核心技术原理与实战应用，帮助你快速掌握网络扫描的核心技能。一、fscan与Nmap工具对比特性fscanNmap开发语言Python3C++主要功能主机探测、端口扫描、漏洞检测主机发现、服务识别、OS检测爆破能力内置弱口令检测需配合其他工具扫描速度极
R语言入门课| 05 一文掌握R语言常见数据类型 Biomamba生信基地 r语言信息可视化开发语言生信医药
视频教程大家可以先做一做R语言基础小测验，看看自己是否需要跟我们5.5h入门R语言的课程。先上教程视频，B站同步播出：https://www.bilibili.com/video/BV1miNVeWEkw完整视频回放和答疑服务可见：5.5h入门R语言本节课程视频：（点击此处查看）"R语言入门课"是我们认为生信小白入门不得不听的一个课程，我们也为这个课程准备了许多干货。R语言的精髓便是数据处理，在本
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
HarmonyOS NEXT仓颉开发语言实战案例：动态广场幽蓝计划 harmonyos 华为
大家好，今日要分享的是使用仓颉语言开发动态广场页面，也比较像朋友圈页面：整个页面分为两部分，分别是导航栏和状态列表，导航栏比较简单，我们可以先写下导航栏的具体代码和页面的基本结构：Column{Row(10){Text('推荐').fontColor(Color.BLACK).fontSize(17).fontWeight(FontWeight.Bold)Text('关注').fontColor(
鸿蒙仓颉开发语言实战教程：页面跳转和传参湖北穷逼首席代表 harmonyos 开发语言华为
合集-仓颉教程(25)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
鸿蒙仓颉语言开发实战教程：购物车页面王家那谁 harmonyos 华为
合集-仓颉教程(25)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
HarmonyOS NEXT仓颉开发语言实战案例：简约音乐播放页幽蓝计划开发语言 harmonyos
偶然间看到一个非常漂亮的音乐播放器设计图，忍不住想拿仓颉语言来练练手，当漂亮的设计图遇到优美的开发语言，简直是天作之合。看到这个页面，我们先做一个简单的分析。整个页面分为上中下三个部分，顶部为导航栏，底部是歌词工具栏，剩下的就是中间的歌曲信息和控制按钮部分。它们的部分方式是比较简单的纵向布局。页面大致结构代码如下：Column{//导航栏Stack{Text('NowPlaying').fontS
ArkTS 开发学习路径全攻略：从入门到实战码农乐园学习
随着HarmonyOS的持续演进，ArkTS（ArkTypeScript）已成为鸿蒙系统的主力开发语言。特别是HarmonyOSNEXT推行纯鸿蒙化后，ArkTS成为构建鸿蒙原生应用的唯一选择。本文将为你梳理一套系统化的学习路径，从语法基础到实战项目，再到系统能力调用与分布式开发，一步步带你成为合格的鸿蒙开发者。第一阶段：ArkTS语言和HarmonyOS基础入门学习目标：掌握ArkTS基础语法；
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
HarmonyOs开发之——TypeScript介绍、入门，及 TypeScript、JavaScript、ArkTs的具体区别解读。 chenrui310 ubuntu linux 运维
HarmonyOs开发之——TypeScript介绍、入门，及TypeScript、JavaScript、ArkTs的具体区别解读。一、开发语言介绍：TypeScript是JavaScript的超集，ArkTS则是TypeScript的超集。ArkTs是HarmonyOs的主力开发语言，它在TypeScript（简称TS）的基础上，匹配ArkUI框架，扩展了声明式UI、状态管理等相应的能力，让开发
C#上位机开发进阶：多协议融合通信（S7、Modbus TCP、OPC UA）与西门子PLC联动威哥说编程网络 tcp/ip 网络协议 c#服务器开发语言
随着工业自动化和智能制造的快速发展，不同协议的设备和系统需要高效协同工作。这不仅要求我们能够与西门子PLC等设备进行有效通信，还需要能够跨越不同协议进行数据交换和设备控制。S7协议、ModbusTCP协议以及OPCUA协议是工业自动化领域中广泛应用的协议，而C#作为强大的开发语言，提供了丰富的库和工具来实现这些协议的融合通信。本文将通过实际示例，介绍如何在C#中实现多协议融合通信（S7、Modbu
PHP基础1（php基础语法，变量与常量，数据类型，运算符）
一.前言我们开始介绍一下php基础，这个只是作为一个小的知识点，让大家大概了解一下php，作为一个后端开发语言，还是很有必要了解的。PHP:HypertextPreprocessor(超文本预处理器)php的作用就是生成动态的html文档二.php基础语法echo在html中输出内容用的，php的代码写在里面三.php的常量与变量变量：可变化的值常量：不变的值圆周率：3.1415#PHP中的变量用
深入浅出ArkTS：HarmonyOS应用开发的新选择 vvilkin的学习备忘 #HarmonyOS harmonyos 华为
在移动应用开发领域，选择合适的编程语言对开发效率和性能优化至关重要。随着华为HarmonyOS的崛起，ArkTS作为其官方推荐的应用开发语言，逐渐受到开发者关注。ArkTS基于TypeScript，融合了声明式UI、响应式编程等现代前端开发范式，同时针对HarmonyOS进行了深度优化。本文将全面介绍ArkTS的核心特性、语法基础、与TypeScript的异同，以及它在HarmonyOS生态中的应
信创时代技术栈选择与前景分析：国产替代背景下的战略路径与实践指南猿享天开信创开发系统安全科技创业创新开发语言
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla