数据挖掘R语言基础常用代码

1、基本知识

①选择csv文件,载入到对象data中

 data<-read.csv(file = file.choose(),header = T) 

②函数,此函数作用是为了,但你需要使用随机数时,可保证你在执行或者调试后,计
算机所创造的随机数保持不变。换句话说,如果使用随机函数rnorm(10)之类的函数,每
次执行后,结果都是不一样的,如果再次之前使用set.seed()函数,则会保证测试数据保
持一致。“123”表示的种子的序号数,并不是传统意义上的数字,而是作为一种标记,并
不参与运算。当然,你也可以取不同的数字,随机数的结果仍然是一样的,但不同种
子,得出的结果是不同的

set.seed(123)

③c表示一个向量,上述这行代码,就是将"A",“B”,“C”,"D"打包成一个表(1*4d 的表)赋给b_vec

b_vec<- c("A","B","C","D")

④##matrix表示矩阵,1:15表示将1-15的数制作成一个矩阵,ncol表示有几列,byrow表示按行填充还是按列填充

> matrix(1:15,ncol=5,byrow=TRUE)
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    6    7    8    9   10
[3,]   11   12   13   14   15
> matrix(1:15,ncol=5,byrow=FALSE)
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    4    7   10   13
[2,]    2    5    8   11   14
[3,]    3    6    9   12   15

⑤##factor函数表示将数据转换为集合形式(即去除重复值)

c(1,2,2,3,3,4,3,2)指要被转换的数据,

1:4表示集合最小值到最大值的范围

> fac_a<-factor(c(1,2,2,3,3,4,3,2), levels=1:4, labels=b_vec)
> fac_a
[1] A B B C C D C B
Levels: A B C D

> fac_a<-factor(c(1,2,2,3,3,4,3,2), levels=1:4)
> fac_a
[1] 1 2 2 3 3 4 3 2
Levels: 1 2 3 4

⑥frame函数:自己手动制作一个表
eg:

> dataframe_a<-data.frame(id=c(1001,1002,1003), name=c("Tim","Lucy","Jack"), 
+                         score=c(80,82,78),gender=c("M","F","M"))
> dataframe_a
    id name score gender
1 1001  Tim    80      M
2 1002 Lucy    82      F
3 1003 Jack    78      M

⑦%>%:用于连接不同模块的代码,确保他们同时被执行
eg:

filter(iris,Species=="setosa"|Species=="versicolor") %>%
  group_by(Species) %>% summarize(n=n(),mean(Sepal.Length), mean(Sepal.Width), median(Petal.Length))

它等价于:

subdata1<-filter(iris,Species=="setosa"|Species=="versicolor")
subdata2<-group_by(subdata1,Species)
summarize(subdata2,n=n(),mean(Sepal.Length), mean(Sepal.Width), median(Petal.Length))

这三者分别被执行

⑧组合两个表(不是连接两个表,组合是指,将新的内容添加进去)
eg:

> #' data combination 
> mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
> mydf2 <- data.frame(x = c(5,6), y = c(50,60))
> mydf3 <- data.frame(z = c(100,200,300,400))
> bind_rows(mydf1, mydf2)
  x  y
1 1 10
2 2 20
3 3 30
4 4 40
5 5 50
6 6 60
> bind_cols(mydf1, mydf3)
  x  y   z
1 1 10 100
2 2 20 200
3 3 30 300
4 4 40 400


2、表的连接

数据挖掘R语言基础常用代码_第1张图片

bind_cols()/bind_rows()
inner_join
left_join
right_join
full_join
semi_join (x,y ) #返回能够与y表匹配的x表所有记录
anti_join(x,y) #返回无法与y表匹配的x表的所记录
#举例
#把flights和planes这两个表合并,关键为tailnum
new_table<-inner_join(flights,planes,by=c("tailnum" ))

3、数据统计、汇总的函数

data(data_name) #加载特定的函数
names(new_table) #列出new_table表的所有属性
head(data) #列出data表中的所有属性的值?还不确定
summary(new_table) #列出new_table表的所有属性对应的最大、小值,中位数,平均值等
dim(data ) #查看变量的维数;重新设置的维数,例如dim(x)=c(3,2)
View(data) #展示data表
table(iris$Species) #展示iris表的 Species属性都有哪些值,以及其出现的频率
email$spam #表示email表中列名叫“spam”的那一列

你可能感兴趣的:(数据挖掘,r语言,数据挖掘,线性代数)