妄念驱动

R笔记（简单数据处理）

R语言笔记

#设定R软件当前工作目录
setwd("E:/R work")
#显示R软件当前工作目录
getwd()
#R语言数据预处理常用包安装
#plyr,reshape2,lubridate, stringr
install.packages(c("plyr","reshape2","lubridate", "stringr","foreign"))
library(MASS)
library(foreign)
library(stringr)
library(plyr)
library(reshape2)
library(ggplot2)
#####1.R语言数据读取#####
#R包自带数据
data(diamonds)
diamonds
#查看前六行数据
head(diamonds)
#查看后六行数据
tail(diamonds)

#R添加包，可以从一些开放源直接下载金融数据，包括雅虎财经、谷歌财经、等
install.packages("quantmod")
library(quantmod) #加载包

#从雅虎财经下载苹果股票交易数据（从2015年1月1日至今）
getSymbols("AAPL",from="2015-01-01")  
#查看数组维数及元素个数
dim(AAPL) 
head(AAPL) 
tail(AAPL)  
#作图,K线图
chartSeries(AAPL,theme=chartTheme('black'))   

#从oanda获取外汇数据
install.packages("jsonlite")
library(jsonlite)
getFX("USD/CNY",from="2017-05-01")  
head(USDCNY)
tail(USDCNY)
chartSeries(USDCNY,theme = chartTheme('black'))

#read.table函数读取本地/网络数据（read.table, read.csv, read.csv2, read.delim, read.delim2, read.fwf）
help("read.table")
##read.table函数

getwd()
#原始数据有列名，第一列为记录序号,可以省略参数header（但此时应当为TRUE）
rt = read.table("houses.data");rt  
rt1 = read.table("houses.data",header = TRUE);rt1 

#原始数据有列名，无记录序号列,不可以省略参数header
rt2 = read.table("houses2.data",header = TRUE);rt2  
rt2 = read.table("houses2.data");rt2  # 省略参数header（此时为FALSE），变量名会被认为是一行数据

#原始数据无列名，无记录序号列，可以省略参数header（此时为FALSE）
rt3 = read.table("houses3.data");rt3  
rt3 = read.table("houses3.data",
                 col.names = c("Price","Floor","Area","Rooms","Age","Cent.heat"));rt3 

#read.csv函数
dat = read.csv('PM.csv')  #编码错误，读入乱码，行数也会错乱
dat1 = read.csv('PM.csv',fileEncoding = "utf-8")  #指定正确编码

#以下操作不读取表头，并重新制定列名
colname=c('id','city','index','y','x')
dat2 = read.csv('PM.csv',header=FALSE,col.name=colname,fileEncoding = "utf-8")

#当数据量较大时，全部将数据读取会比较耗时，这里可以通过nrows设定
dat3 = read.csv('PM.csv',fileEncoding = "utf-8",nrows=-1)  #nrows默认为-1
dat4 = read.csv('PM.csv',fileEncoding = "utf-8",nrows=5)  #nrows设置为5

#因子转换
dat5 = read.csv('PM.csv',stringsAsFactors=FALSE,fileEncoding = "utf-8") #读取为string格式
str(dat5)
dat6 = read.csv('PM.csv',fileEncoding = "utf-8") #读取为factor格式
str(dat6)

#文件编码
dat7 = read.csv('PM.csv',fileEncoding = "utf-8") #默认编码不是utf-8，需要设置
dat8 = read.csv('PM-gbk.csv') #这里默认编码是gbk，不需要设置

#最后一行没有回车符会有警告“最后一行不完整”
x=read.table("data1.txt",sep=",");x
person=read.csv("data1.txt", header=FALSE,col.names=c("age","height"))
person
##scan函数读取结构化数据
#15名学生的体重
w = scan("weight.data");w  #默认读为数值向量
w = scan("weight.data",what = 0);w  
w = scan("weight.data",what = c(""));w  #读为字符型向量
w = scan("weight.data",what = list(""));w  #读为list

#例100名学生的身高和体重被存在文件h_w.data中，其中1,3,5,7,9列为身高，2,4,6,8,10列为体重，
#试用scan函数读入，并转化为数据框
dat = scan("h_w.data",what = list(height=0,weight=0))
df = as.data.frame(dat)

#scan函数读入屏幕数据
names = scan(what = "")
zhangsan lisi wangwu maliu
names

##其他格式数据读入
install.packages("foreign")
library(foreign)
#读取SPSS文件，不加参数to.data.frame = T返回list
educ = read.spss("educ_scores.sav",to.data.frame = T)
educ = read.xport("educ_scores.xpt")  #读取SAS文件
educ = read.S("educ_scores")  #读取SPLUS文件
educ = read.dta("educ_scores.dta")  #读取stata文件

#读取excel表格数据
educ = read.delim("EDUC_SCORES.txt")  #转化为txt文件
educ = read.csv("educ_scores.csv")    #转化为csv文件
#利用xlsx包中的函数读取
install.packages("xlsx")
library(xlsx)

#解决无法载入‘rJava’问题方法
install.packages("rJava")
Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_77')  #自己的JAVA64路径
library(rJava)
library(xlsx)
#这里默认header=T,sheetIndex = 1表示读取第一个工作簿的数据,或通过指定工作簿名称来读取
educ = read.xlsx("educ_scores.xls",sheetIndex = 1)  
educ = read.xlsx("educ_scores.xls",sheetName = "educ_scores")  

##文本数据读取
news = readLines('news.txt',encoding = "UTF-8")
news = readLines('news.txt',n=2,encoding = "UTF-8");news

#scan函数读取为列表
line = scan('news.txt',what=list(''),encoding = "UTF-8")
line = scan('news.txt',what=list(''),n=1,encoding = "UTF-8");line
#scan函数读取为向量
line = scan('news.txt',what=c(''),encoding = "UTF-8")
line = scan('news.txt',what=c(''),n=1,encoding = "UTF-8");line

##结构化数据写入
write.table(educ,file = "educ_w.txt",append = T)
write.csv(educ,file = "educ_w.csv")

##文本数据写入
writeLines(line,"news_w.txt")

sink("news_w1.txt")
cat(line)
sink()

y=read.table("http://www.jaredlander.com/data/Tomato%20First.csv",header=TRUE,sep=",")
#使用head(),str(),summary()函数来查看数据集
head(y)
str(y)
summary(y)

getwd()
#查看数据
data = read.table("salary.txt",header = T);data
mode(data)
class(data)
names(data)
colnames(data)
dim(data)

#####2.数据管理与变换######
##数据合并
a=c("Hongkong",1910,75.0,41.8)

data = read.table('salary.txt', header = T,stringsAsFactors = F)
data1=rbind(data,a)
data1[14:16,]

weight=c(150,135,210,140)  #数值型向量
height=c(65,61,70,65)
gender=c("F","F","M","F")  #字符型向量
stu=data.frame(weight,height,gender)
row.names(stu)=c("Alice","Bob","Cal","David")
stu[,"weight"]
stu["Cal",]  #获取行
stu[1:2,1:2]
stu$weight  # ”$”用于取列
stu[["weight"]]  #双括号+名称
stu[[1]]  #双括号+下标，用于数据框和列表数据的获取
stu[,1]
#列名一致
index=list("City"=data$City,"Index"=1:15)  #建立另一个数据集index
index
data.index=merge(data,index,by="City")
data.index

#列名不一致
index1=list("City1"=data$City,"Index"=1:15)
index1
data.index1=merge(data,index1,by.x = "City",by.y = "City1")
data.index1
index2 = 1:15
data.index2=cbind(data,index2)


##选取数据子集
data[data$Salary>65,]
data[c(2,4),]
#选取价格指数等于65.6的行，注意要用双等号==
data[data$Price==65.6,]

##数据排序
order.salary=order(data$Salary)  #返回的是该变量从小到大（默认）排序后的索引
order.salary
data[order.salary,]

sort.list(data$Salary)  #sort.list与order的作用一致
data[sort.list(data$Salary,decreasing = T),]

## 读取数据
# 在当前目录下搜索匹配文件名中有“Loan”的贷款申请成功数据
setwd("G:\\数据预处理")
thefilesL = dir(pattern = "^Loan");thefilesL
# 读入各数据并将其放在同一个列表（list），若不指定参数stringsAsFactors = F，字符型的元数据将自动转化为因子型
# lapply函数对列表进行统一操作（R语言基础PPT54)
# 第一行是描述性数据，需要跳过
LoanList0 = lapply(thefilesL, read.csv, stringsAsFactors = F, skip = 1)
# 按行合并不同的csv文件的贷款申请数据
Loan = do.call(rbind, LoanList0)
# 同样读入、合并Reject
thefilesR = dir(pattern = "^Reject")
RejectList0 = lapply(thefilesR, read.csv, stringsAsFactors = F, skip = 1)
Reject = do.call(rbind, RejectList0)
str(Loan)

library(dplyr)
Loan.df = tbl_df(Loan)
Loan.df
dim(Loan.df)
colnames(Loan.df)
## (1)添加新变量列
# 添加一列名为dti的新变量，它是将变量列Debt.To.Income.Ratio去百分号得到的
#这里sub函数用来将“%”替换为“”
Reject.temp = mutate(Reject, dti = as.numeric(sub("%", "", Debt.To.Income.Ratio)))
#等同于下面的操作
Reject.temp1 = Reject
Reject.temp1$dti = as.numeric(sub("%", "", Reject.temp1$Debt.To.Income.Ratio))
## (2)选择变量列
Reject.s = select(Reject.temp, Amount.Requested, dti, Risk_Score:State)
Reject.s1 = select(Reject.s, -Zip.Code, -Debt.To.Income.Ratio)
## (3)选择满足条件的观测行
MA_Reject = filter(Reject.s1, Risk_Score>500&State == "MA")
## (4)排序
arrange(Reject.s1, State, Risk_Score, dti, Amount.Requested)
## (5)数据分组汇总
summarise(group_by(Loan,grade),                       #使用分类变量grade分组
          ave.amnt = mean(funded_amnt, na.rm = T),    #计算均值
          sd = sd(funded_amnt, na.rm = T),            #计算标准差
          n = sum(!is.na(funded_amnt)),               #计算各组样本量（不计缺失值）
          se = sd/sqrt(n),                            #计算均值标准误
          conf_upper = ave.amnt + qt(0.975, n-1)*se,  #计算置信上下限（t分布）
          conf_lower = ave.amnt - qt(0.975, n-1)*se)
## 数据变换
# (1)最大值-最小值规范化
library(caret)
# 将Loan数据中的loan_amnt转化到[0,1]
help(preProcess)
#先指定处理方法
trans = preProcess(select(Loan, loan_amnt), method = c("range"))
trans
#然后使用predict函数完成处理
transformed = predict(trans, select(Loan,loan_amnt))
head(transformed)
range(transformed)

# (2)标准化
trans = preProcess(select(Loan, loan_amnt), method = c("center","scale"))
trans
transformed = predict(trans, select(Loan,loan_amnt))
head(transformed)
mean(transformed[[1]]);var(transformed[[1]])
# (3)十进制正规化
max(abs(Loan$loan_amnt))
# (4)Box-Cox变换
library(e1071)
#计算偏度,发现是右偏
skewness(Loan$annual_inc,na.rm = T)
#选择Loan数据集中的数值型变量
Loan.num = select(Loan, loan_amnt,funded_amnt,funded_amnt_inv,installment,annual_inc,dti,total_pymnt)
# 对每列数值型变量都计算其偏度系数
apply(Loan.num,2,skewness,na.rm = T)
# 为了直方图显示效果，剔除年收入超过40万美元的客户
Loan.anin = Loan$annual_inc[-which(Loan$annual_inc>400000)]
library(caret)
# 使用样本数据估计λ,估计值为-0.1，但修正后的λ估计值为0
BoxCoxTrans(Loan$annual_inc,na.rm = T)
par(mfrow=c(1,2))
hist(Loan.anin,xlab="natural units of annual_inc", main="Histogram: Original Data")
# 估计的λ为0，使用log变换
hist(log(Loan$annual_inc),
     xlab = "log units of annual_inc",
     main = "Histogram: after log transformation"
     )


#####3.从原始数据到技术正确的数据#####
##一个小案例(deltons)
#step(1): Reading data
txt=readLines("data2.txt")  #readLines: when the rows in a data files are not uniformly formatted
txt
#step(2):Selecting lines containing data
I=grepl("^%",txt)
I
dat=txt[!I]
dat
#step(3):Split lines into separate fields
help(strsplit)
(fieldList=strsplit(dat,split=","))
#step(4):Standardize rows
#先定义一个对列表中单个元素处理的
assignFields=function(x)  #函数声明
{
  out=character(3)
  #匹配list中的字符作为输出的第一列
  i=grepl("[[:alpha:]]",x)
  #print(i)
  out[1]=x[i]
  #将list中小于1890的作为出生年份
  i=which(as.numeric(x)<1890)
  #print(i)
  out[2]=ifelse(length(i)>0,x[i],NA)  #若长度不大于0，则赋值为NA
  #将list中大于1890的作为死亡年份
  i=which(as.numeric(x)>1890)
  #print(i)
  out[3]=ifelse(length(i)>0,x[i],NA)  #若长度不大于0，则赋值为NA
  return(out)
}
#演示
out=character(3)
out[1]
i=grepl("[[:alpha:]]",fieldList[[1]]);i
out[1] = fieldList[[1]][i];out

i=which(as.numeric(fieldList[[1]])<1890);i
out[2]=ifelse(length(i)>0,fieldList[[1]][i],NA);out

#lapply函数用来处理列表的每一个元素
standardFields=lapply(fieldList,assignFields) #apply a function over a list
standardFields
#step(5): transform a list to data.frame（将list转化为data.frame）
M=matrix(unlist(standardFields),nrow=length(standardFields),byrow=TRUE)  #copy into a matrix which is then coerced into a data.frame
#unlist() produce a vector which contains all the atomic components which occur in x
colnames(M)=c("name","birth","death")
M
deltons=as.data.frame(M,stringsAsFactors=FALSE)  #stringsAsFactors=FALSE 防止R把第一列默认成因子模式factor
deltons
#step(6):Normalize and coerce to correct types（强制转换类型）
str(deltons)
deltons$birth=as.numeric(deltons$birth)
deltons$death=as.numeric(deltons$death)
deltons
str(deltons)

##分类变量处理
#分类型变量在R中存储为factor格式
#(1)改变因子水平排序
f=factor(c("small","large","large","small","medium")); f
levels(f) #默认是字母表顺序
#手动输入改变
f1=factor(f,levels=c("small","medium","large")); f1
#rev函数逆转原来的排序
f2=factor(f1,levels=rev(levels(f1))); f2 
#relevel函数决定因子水平从哪一个开始
f3 = relevel(f2,ref="small"); f3

##根据数值型变量改变因子水平排序，函数：reorder 
iss=InsectSprays  #R包数据：昆虫喷雾剂
iss
#未重新排序前画箱线图，按照默认顺序排序
iss$spray
boxplot(count~spray,data=iss)   #箱线图
#重新排序后箱线图按照count的均值从小到大排序
iss$spray=reorder(iss$spray,iss$count,FUN=mean)
iss$spray
boxplot(count~spray,data=iss)   #箱线图
relevel(iss$spray,ref="D")

#(2)因子水平重编码
#Example: we read in a vector where 1 stands for male, 2 stands for female and 0 stands for unknown
gender=c(2,1,1,2,0,1,1)
gender=factor(gender,level=c(1,2),label=c("male","female"))
gender

library(ggplot2)
(pg=PlantGrowth)  #ggPlot2数据
pg$group  #原来的分类有3类
pg$treatment[pg$group=="ctrl"]="no"
pg$treatment[pg$group=="trt1"]="yes"
pg$treatment[pg$group=="trt2"]="yes"
pg
str(pg)
pg$treatment=factor(pg$treatment)
str(pg)

##字符处理
#(1).string normalization: transform a varity strings to a set of standard strings 
#We expect it to be more easily processed later

library(stringr)
str_trim(" Hello world ")  #忽略前后空格
str_trim(" Hello world ",side="left")  #忽略左边空格
str_trim("Hello world ",side="right")  #忽略右边空格
str_pad(112,width=10,side="left",pad=0)  #把字符串填充为指定的长度
toupper("Hello world") #小写字母转化为大写字母(to-upper)
tolower("Hello world") #大写字母转化为小写字母(to-lower)
#(2)模糊匹配
#模式匹配
gender=c("M","male","Female","fem.");gender
#grepl返回逻辑值，grep返回匹配到的位置索引
grepl("m",gender)    #大小写敏感,返回逻辑值
grep("m",gender)   #大小写敏感,返回数值索引
grepl("m",gender,ignore.case=TRUE) #参数ignore.case=TRUE，忽略大小写
grepl("m",tolower(gender)) 
#匹配以m或M开头的字符串
grepl("^m",gender,ignore.case=TRUE)

#查看“abc“变为”bac”需要的步数（不能换位，只能替换）
adist("abc","bac")  
codes=c("male","female")
disMatrix=adist(gender,codes)
disMatrix
colnames(disMatrix)=codes  #for readability
rownames(disMatrix)=gender
disMatrix
i=apply(disMatrix,1,which.min);i  #按行输出变换结果
data.frame(rawtext=gender,coded.gender=codes[i]) 
#stringdist()在计算字符串距离时比adist()更加方便，它允许字符的替换
install.packages("stringdist")
library(stringdist)
stringdist("abc","bac")
#amath() return an index to the closest match(codes) within a maximum distance
i=amatch(gender,codes,maxDist=4);i
data.frame(rawtext=gender,code=codes[i])

##日期转化
(current_time=Sys.time())
class(current_time)
as.numeric(current_time)
date1=as.Date(current_time)
date1
as.numeric(date1)
end_time=Sys.time()
end_time-current_time #Running time of some program
install.packages("lubridate")
library(lubridate)  
#contain functions facilitating conversion of text to POSIXct date
dates=c("15/02/2013","15022013","01-07-2011","It happened on 15 02 13")
dmy(dates) #dmy转换为标准格式

##分组操作
#(1)apply(),lapply(),sapply(),mapply()
(ma=matrix(1:100,nrow=20))
#按行求和，等同于rowSums()
apply(ma,1,sum)
#按列求和，等同于colSums()
apply(ma,2,sum)
#添加缺失值的情况
ma[2,3]=NA
apply(ma,1,sum)
apply(ma,2,sum)
apply(ma,1,sum,na.rm=TRUE)
apply(ma,2,sum,na.rm=TRUE)

Thelist=list(A=matrix(1:9,nrow=3),B=1:5,C=matrix(1:4,nrow=2),D=c(2));Thelist
lapply(Thelist,sum)
sapply(Thelist,sum)
help(apply)

#(2)aggregate()
library(ggplot2)
data(diamonds)
diamonds
head(diamonds)
aggregate(price~cut,diamonds,mean)
aggregate(price~cut+color,diamonds,mean)
aggregate((price+carat)~cut+color,diamonds,mean)

#(3)plyr Package
library(plyr)
xx <- array(1:24, c(3, 4, 2));xx
class(xx)

#matrix
a=matrix(1:21,nrow=3,ncol=7);a
aaply(.data=a,.margins=1,.fun=mean)  #计算矩阵a各行均值
aaply(a,1,mean)  #计算矩阵a各行均值
aaply(a,2,mean)  #计算矩阵a各列均值

#data.frame
names=c("John","Mary","Alice","Peter","Roger","Phyillis") 
age=c(13,15,14,13,14,13) 
sex=c("Male","Female","Female","Male","Male","Female") 
data=data.frame(names,age,sex);data

aver=function(data)c(average.age=mean(data$age))
dlply(data,"sex",aver)  #返回列表
ddply(data,"sex",aver)  #返回数据框
daply(data,"sex",aver)  #返回向量

##baseball简单案例
#Case study:  data(baseball)
#baseball数据集包括了15年及以上美国所有职业选手的击球记录
data(baseball)
head(baseball)
baseball[baseball$id=="yosted01",]  #输出id为“yosted01”的信息
#新增变量: OBP(On-Base Percentage,上垒率)
#OBP=(h+bb+hbp)/(ab+bb+hbp+sf)
baseball$sf[baseball$year<1954]  #查看year<1954的sf值
baseball$sf[baseball$year<1954]=0  #将year<1954的sf值赋值为0
baseball$hbp[is.na(baseball$hbp)]=0  #set missing values to 0
#检查是否存在缺失值
any(is.na(baseball$sf))
any(is.na(baseball$hbp))
#每年、每位选手的OBP值
#with()函数用来做批处理
baseball$OBP=with(baseball,(h+bb+hbp)/(ab+bb+hbp+sf))
tail(baseball)
#计算选手职业生涯中的OBP值
#OBP=sum(h+bb+hbp)/sum(ab+bb+hbp+sf)
obp=function(data) c(OBP=with(data,sum(h+bb+hbp)/sum(ab+bb+hbp+sf)))
obp(baseball[baseball$id=="aaronha01",])
careerOBP=ddply(baseball,"id",obp)
head(careerOBP)
arrange(careerOBP,OBP)  #排序

##整齐数据
#(1)列标题是值而不是变量名
#pew数据是教徒的收入数据，分隔符是"\t"

pew = read.delim(file = "pew.txt",header = TRUE,stringsAsFactors = FALSE,check.names = F)
pew
library(reshape2)
pew_tidy = melt(data = pew,id.vars = "religion",variable.name="income",value.name="frequency")
head(pew_tidy)

#(2)多个变量存储在一列
tb = read.csv(file = "tb.csv",header = TRUE, stringsAsFactors = FALSE)
head(tb)
names(tb)
tb$new_sp = NULL  #clean up column names
names(tb)
names(tb) = gsub("new_sp_", "", names(tb))

# na.rm = TRUE移除缺失值
tb_tidy = melt(data = tb,id = c("iso2", "year"),variable.name = "gender_age",
               value.name = "cases",na.rm = TRUE)
#gender_age这一列包含两个变量：性别和年龄段
head(tb_tidy)
# na.rm = TRUE可以保证按变量排序不受影响
tidy = arrange(tb_tidy, iso2, gender_age, year)
head(tidy)
library(stringr)
#str_sub()用来从一个特征向量提取子字符串（stringr）包
#str_sub(string=,start=,end=)
str_sub(tidy$gender_age, 1, 1) 
str_sub(tidy$gender_age, 2)
ageraw=str_sub(tidy$gender_age, 2)
agemap= c("04" = "0-4", "514" = "5-14",
          "014" = "0-14", "1524" = "15-24", "2534" = "25-34",
          "3544" = "35-44", "4554" = "45-54", "5564" = "55-64",
          "65"= "65+", "u" = NA)
#revalue()函数作用：对于一个因子型或者字符型变量，给定一个映射关系,用新值替换指定值
age=revalue(ageraw,agemap)

tidy$sex = str_sub(tidy$gender_age, 1, 1)
tidy$age = factor(age)
tidy = tidy[c("iso2", "year", "sex", "age", "cases")]
head(tidy)

#(3)行、列中均存在变量
#weather是天气气温的数据
weather = read.delim(file = "weather.txt",stringsAsFactors = FALSE)
head(weather)
raw1=melt(weather,id.vars=c("id","year","month","element"),
          na.rm = TRUE, variable.name="day",value.name = "temperature")
head(raw1)
#str_replace()函数将变量“day”中的“d”用“”代替，即去掉
raw1$day = as.integer(str_replace(raw1$day, "d", ""))
#tolower()函数将变量“element”中的值转化为小写
raw1$element = tolower(raw1$element)
names(raw1)
#交换两变量的顺序
raw1 = raw1[c("id", "year", "month", "day","element", "temperature")]
raw1 = arrange(raw1, year, month, day, element)
head(raw1)
dcast(raw1,id+year+month+day~element,value.var="temperature")

#####4.修改数据#####

data = read.table("salary.txt",header = T);data

mode(data)
names(data)
dim(data)
data$Price
attach(data)
Price
Salary
mean(Salary)  #求均值
length(Salary)  #数据长度（个数）
cumsum(Salary)  #累积工资
detach(data)
Salary

#修改数据标签
names(data)=c("CITY","WORK","PRICE","SALARY")
names(data)
#行列删除
data2=data[-1,-3]
data2
#判断缺失数据
attach(data)
is.na(SALARY)
#将data文件中工资指数大于65的值替换为缺失值
data$SALARY = replace(SALARY,SALARY>65,NA)
is.na(SALARY)
#查看缺失值数量
sum(is.na(SALARY))
#complete.cases()函数
complete.cases(data$SALARY)  #数据是否非缺失
sum(!complete.cases(data$SALARY))
#判断缺失模式
data$PRICE = replace(PRICE,PRICE>80,NA)
install.packages("mice")
library(mice)
md.pattern(data)

install.packages("VIM")
library(VIM)
aggr(data)


##（1）行删除法
data("airquality")
head(airquality)
tail(airquality)
sum(any(is.na(airquality)))
airquality[complete.cases(airquality),]
##（2）成对删除法
apply(airquality,2,mean,na.rm=TRUE)  #均值
cor(airquality,use="pair")  #相关系数矩阵
##（3）用统计量来填补缺失值
mean6 = apply(airquality,2,mean,na.rm = TRUE);mean6
#TRUE/FALSE"+1"是为了使得值为TRUE的变为2，值为FALSE的变为1,观察是否插补标识
airquality$col = c("Mean_imputation","notNA")[complete.cases(airquality[,1:2])+1]
#使用均值插补两个变量
airquality[is.na(airquality$Ozone),"Ozone"] = mean6["Ozone"]
airquality[is.na(airquality$Solar.R),"Solar.R"] = mean6["Solar.R"]
#检查插补后是否有缺失值
any(is.na(airquality))
#绘制插补后的Ozone直方图
library(ggplot2)
ggplot(airquality,aes(Ozone,fill=col)) + geom_histogram(alpha=0.5,position = "identity")
#绘制插补后的Solar.R和Ozone的散点图
ggplot(airquality,aes(x=Solar.R,y=Ozone,colour=col)) + geom_point(size=3)
#插补后的标准误
sd(airquality$Ozone)
#插补后Solar.R和Ozone的相关系数
cor(airquality$Ozone,airquality$Solar.R)
#重新加载airquality
data("airquality")
#插补前Ozone的标准误
sd(airquality$Ozone,na.rm = TRUE)
#插补前Solar.R和Ozone的相关系数
cor(airquality$Ozone,airquality$Solar.R,use = "complete.obs")

##（4）回归插补
library(mice)
data("airquality")
airquality$col = c("regression_imputation","notNA")[as.vector(!is.na(airquality["Ozone"]))+1]
fit = lm(Ozone~Solar.R,data = airquality)
#筛选Ozone缺失的行号
a = which(!complete.cases(airquality$Ozone))  
#插补
airquality$Ozone[a] = as.vector(predict(fit,newdata = airquality[a,]))
ggplot(airquality,aes(Ozone,fill=col)) + geom_histogram(alpha=0.5,position = "identity")
#绘制插补后的Solar.R和Ozone的散点图
ggplot(airquality,aes(x=Solar.R,y=Ozone,colour=col)) + geom_point(size=3)
#插补后的标准误
sd(airquality$Ozone,na.rm=TRUE)
#插补后Solar.R和Ozone的相关系数
cor(airquality$Ozone,airquality$Solar.R,use = "complete.obs")

##(5)随机回归插补
library(mice)
data("airquality")
imp = mice(airquality[,1:2],method = "norm.nob",m=1,maxit = 1,seed = 11)
air = complete(imp)
air$col = c("norm.nob_imputation","notNA")[complete.cases(airquality[,1:2])+1]
ggplot(air,aes(Ozone,fill=col)) + geom_histogram(alpha=0.5,position = "identity")
#绘制插补后的Solar.R和Ozone的散点图
ggplot(air,aes(x=Solar.R,y=Ozone,colour=col)) + geom_point(size=3)

##(6)多重插补
library(mice)
data("airquality")
imp = mice(airquality,seed = 1,print = FALSE)
#使用with()函数依次对每个完整数据集做回归
fit = with(imp,lm(Ozone~Wind+Temp+Solar.R))
pooled = pool(fit)
round(summary(pooled),3)[,c(1:3,5)]
#使用原数据集做回归
fit.r = lm(Ozone~Wind+Temp+Solar.R,data=airquality)
round(coef(summary(fit.r)),3)

#观察实际插补值
imp$imp
#显示实际插补值的得变量Ozone的值，5列表示5个值
imp$imp$Ozone
#complete()函数可以观察m个插补数据集中的任何一个
air = complete(imp,action = 1)
air$col = c("multiple_imputation","notNA")[complete.cases(airquality[,1:2])+1]
ggplot(air,aes(Ozone,fill=col)) + geom_histogram(alpha=0.5,position = "identity")
#绘制插补后的Solar.R和Ozone的散点图
ggplot(air,aes(x=Solar.R,y=Ozone,colour=col)) + geom_point(size=3)

##(7)K近邻法
install.packages("DMwR")
library(DMwR)
data("airquality")
air = knnImputation(airquality,k=10)
air$col = c("knn_imputation","notNA")[complete.cases(airquality[,1:2])+1]
ggplot(air,aes(Ozone,fill=col)) + geom_histogram(alpha=0.5,position = "identity")
#绘制插补后的Solar.R和Ozone的散点图
ggplot(air,aes(x=Solar.R,y=Ozone,colour=col)) + geom_point(size=3)


#####5.异常点的检测#####
##（1）单变量
set.seed(0402)
x = rnorm(100) #生成100个标准正态分布的随机数
boxplot.stats(x)$out #检测出来的异常点
boxplot(x) #绘制箱线图

##（2）两变量
set.seed(3148)
x = rnorm(100)
set.seed(3147)
y = rnorm(100)
df = data.frame(x,y)
attach(df)
#分别找出两变量异常点的索引
(a = which(x %in% boxplot.stats(x)$out))
(b = which(y %in% boxplot.stats(y)$out))
detach(df)
#交集
(outlier.list1 = intersect(a, b))
plot(df)
points(df[outlier.list1,], col="red", pch="+", cex=2.5)
#并集
(outlier.list2 = union(a, b))
plot(df)
points(df[outlier.list2,], col="blue", pch="+", cex=2.5)

##（3）3个及以上变量
##局部离群点因子（LOF）
library(DMwR)
iris2 = iris[,1:4] #删除列变量Species，它是一个分类型变量
outlier.scores = lofactor(iris2, k=5) #选择k=5作为近邻标准，用于计算LOF
dec_out = outlier.scores[order(outlier.scores,decreasing = T)];dec_out
#按LOF降序排列,将前5个点作为离群点
outliers = order(outlier.scores,decreasing = T)[1:5] 
#输出异常点编号
print(outliers)

n = nrow(iris2)
labels = 1:n
labels[-outliers] = "."
#结合前两个主成份的双标图呈现异常值
#prcomp()执行了一个主成分分析，并且biplot()使用前两个主成分画出了这些数据
biplot(prcomp(iris2), cex=.6, xlabs = labels)

#使用pairsPlot显示异常值
pch = rep(".", n)
pch[outliers] = "+"
col = rep("black", n)
col[outliers] = "red"
pairs(iris2,col=col,pch=pch)

##K-means算法检测离群点
iris2 = iris[,1:4] #删除列变量Species，它是一个分类型变量
kmeans.result = kmeans(iris2, centers = 3)
#聚类中心
kmeans.result$centers
#类别标签
kmeans.result$cluster
#分配每行数据的聚类中心
centers = kmeans.result$centers[kmeans.result$cluster,]
centers
#计算各点与聚类中心的距离
distances = sqrt(rowSums((iris2-centers)^2))
#按聚类降序排列,将前5个点作为离群点
outliers = order(distances,decreasing = T)[1:5] 
#输出异常点编号
print(outliers)
#以花萼长宽为坐标画出聚类情况
plot(iris2[,c("Sepal.Length","Sepal.Width")], pch="o",col=kmeans.result$cluster,cex=0.3)
#标记聚类中心
points(kmeans.result$centers[,c("Sepal.Length","Sepal.Width")], pch=8,col=1:3,cex=1.5)
#标记离群点
points(iris2[outliers,c("Sepal.Length","Sepal.Width")], pch="+",col=4,cex=1.5)

#####6.变量选择#####
#####过滤法#####
## 低方差变量处理
library(caret)
library(AppliedPredictiveModeling)
data(segmentationOriginal) #加载原始的细胞分割数据集
segData = subset(segmentationOriginal, Case == "Train") #提取其中标识为“Train”的训练样本
dim(segData) #训练样本有1009个观测，119个特征
#删除不需要的三列特征：细胞标识ID(Cell)、是否正确分割（Class）和细胞用于测试集还是训练集（Case）
segData = segData[,-(1:3)] 
#去除对本例无用的二元定性变量，它们的变量名都包含“status”
statusColNum = grep("Status", names(segData))
#删掉定性变量列，得到本例用的数据
segData = segData[,-statusColNum]
#返回该数据中低方差变量所在的列数
nearZeroVar(segData)

## 删除强相关变量
correlations = cor(segData)
dim(correlations)
correlations[1:4,1:4]  #查看前四个变量间的相关性
library(corrplot)
# 可视化展示相关系数矩阵，展示图已根据变量聚类后的结果对变量进行重排
corrplot(correlations, order = "hclust")
# 根据以上算法筛选出相关性最强的变量
highCorr = findCorrelation(correlations, cutoff = 0.75)
length(highCorr)  # 筛选出的变量个数是32个
highCorr
# 去除强相关变量
filteredSegData = segData[,-highCorr]

## 用变量聚类的方法过滤变量
library(Hmisc)
v = varclus(as.matrix(segData))
print(round(v$sim, 2))  # 显示变量的相关系数矩阵
plot(v)  # 显示层次树结构，可以看到很多变量之间有很强的相关性
#将变量聚成30个大类，而后在每个类中挑选一个变量
nvars = 30  
# 标记每类的类别编号（1-30）
tree = cutree(v$hclust,nvars)
# 统计每类的数量
tab = table(tree)
# 先建立长度为30的全0向量，后面用来填充每类中的一个变量
predictors.select = rep(0,30)
for (i in 1:nvars)
{
  # 若某类中只有一个变量，则选择该变量
  if (sum(tree == i) == 1)
    predictors.select[i] = names(tree[tree == i])
  # 若某类变量不止一个，随机取一个变量
  else
    predictors.select[i] = names(sample(tree[tree == i], 1))
}
predictors.select  # 显示随机选择的30个变量

#####变量重要性排序#####
#####（1）输入变量和输出变量都是数值型变量#####
library(AppliedPredictiveModeling)
data(solubility)
## 单变量与因变量的pearson相关系数
cor(solTrainXtrans$NumCarbon, solTrainY)

## 所有数值型变量与因变量的pearson相关系数
# 变量名中包含“FP”的变量是分类变量，将匹配出来并排除掉剩余的就是数值型变量
fpCols = grepl("FP", names(solTrainXtrans))
numericPreds = names(solTrainXtrans)[!fpCols]   #所有的数值型自变量
# 利用apply函数计算所有数值型变量与因变量solTrainY的pearson相关系数
corrValues = apply(solTrainXtrans[, numericPreds],
                   MARGIN = 2, #1表示按行计算，2表示按列计算
                   FUN = function(x, y) cor(x, y),
                   y = solTrainY)
head(corrValues)  #查看前六个
## 所有数值型变量与因变量的spearman相关系数
corrValues1 = apply(solTrainXtrans[, numericPreds],
                    MARGIN = 2,
                    FUN = function(x, y) cor(x, y,method = "spearman"),
                    y = solTrainY)
head(corrValues1) #查看前六个

## 局部加权回归LOESS的伪R2
smoother = loess(solTrainY ~ solTrainXtrans$NumCarbon)
smoother
#lattice包中的xyplot做LOESS图
library(lattice)
xyplot(solTrainY ~ solTrainXtrans$NumCarbon,
       type = c("p", "smooth"),
       xlab = "# Carbons",
       ylab = "Solubility")
#caret包中的filterVarImp
install.packages("caret")
library(caret)
loessResults = filterVarImp(x = solTrainXtrans[, numericPreds],
                            y = solTrainY,
                            nonpara = TRUE)
head(loessResults)
# 按照变量重要性排序，越重要序号越大
aaa = cbind(loessResults,rank(loessResults$Overall))

## 最大信息系数MIC
install.packages("minerva")
library(minerva)
micValues = mine(solTrainXtrans[, numericPreds], solTrainY)
# 计算出若干统计量，其中包括MIC
names(micValues)
head(micValues$MIC)
bbb = cbind(micValues$MIC, rank(micValues$MIC))
cbind(aaa,bbb)

#####（2）输入变量是分类变量输出变量是数值型变量#####
# 查看数据集分类变量的类别数
get_levels = function(x)
{
  out = levels(factor(x))
  out
}
FP_levels = apply(solTrainXtrans[, fpCols],
                  MARGIN = 2,
                  FUN = get_levels)
FP_levels = as.data.frame(t(FP_levels))
#按照FP044分两类，检验因变量均值是否相同
t.test(solTrainY ~ solTrainXtrans$FP044)
levels(factor(solTrainXtrans$FP002))
#分别按照FPxxx分两类，检验因变量均值是否相同，并输出t值和p值
getTstats = function(x, y)
{
  tTest = t.test(y~x)
  out = c(tStat = tTest$statistic, p = tTest$p.value)
  out
}
tVals = apply(solTrainXtrans[, fpCols],
              MARGIN = 2,
              FUN = getTstats,
              y = solTrainY)
## 转置以方便查看
tVals1 = as.data.frame(t(tVals))

head(tVals1)
# 筛选不能拒绝原假设的分类变量
uselessFP = tVals1[tVals1$p>0.05,]

你可能感兴趣的:(R,r语言)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
《跃迁》5/7-5组-橙子-张静12.16 静言物于
【便签5】【片段来源】《跃迁：成为高手的技术》第四章【R原文】一位客户咨询时抱怨：“这个我做不到。”我问他：“如果我请你现在出去裸奔，你能做到吗？”“这个我也做不到”“其实并不是做不到，而是不愿意做，或者不想承担裸奔的代价吧。你不是做不到，而是选择不去做。如果有一天你裸奔能救自己家人、孩子，也许就能做到了。”为什么要做这个区分？如果一个人经常和自己说“做不到”，他的能力范围会越来越小，会成为一个无
✔2848. 与车相交的点程序员小小聪力扣 leetcode
代码实现：方法一：哈希表#definefmax(a,b)((a)>(b)?(a):(b))intnumberOfPoints(int**nums,intnumsSize,int*numsColSize){inthash[101]={0};intmax=0;for(inti=0;i=x){j--;}if(i=nums[i][0]){r=r>nums[i][1]?r:nums[i][1];}else{
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
Acwing 区间合并 Curry_Math 算法学习算法 c++开发语言
区间合并主要思想：给定很多区间。若两个区间有交集，将二者合并成一个区间。具体做法:先按照区间的左端点进行排序然后遍历每个区间，根据不同的情况进行合并，有一下几种情况：第一种情况，区间不变；第二种情况，end更新为区间i的右端点；以上两种情况，可以归结为end更新为max（end，r）;r为区间右端点第三种情况，将当前维护的区间加入结果，并将维护的区间更新为区间i；下面给出区间合并的板子：//区间合
Android shell 常用 debug 命令晨春计 Audio debug android linux
目录1、查看版本2、am命令3、pm命令4、dumpsys命令5、sed命令6、log定位查看APK进程号7、log定位使用场景1、查看版本1.1、Android串口终端执行getpropro.build.version.release#获取Android版本uname-a#查看linux内核版本信息uname-r#单独查看内核版本1.2、linux服务器执行lsb_release-a#查看Lin
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
linux简单安装gcc和gdb chn-zgq Linux linux ubuntu
linux安装gcc以及环境配置和gdb安装gcc-10.0添加源:sudoadd-apt-repositoryppa:ubuntu-toolchain-r/ppa更新源:sudoaptupdate下载gcc:sudoaptinstallgcc-10g++-10默认GCC版本设置为gcc-10.0:sudoupdate-alternatives--install/usr/bin/gccgcc/us
梧桐数据库（WuTongDB）：数据库技术中都有哪些常见的优化器鲁鲁517 梧桐数据库梧桐数据库
以下是一些常见的数据库优化器：1.CBO（Cost-BasedOptimizer）应用场景：广泛应用于关系型数据库中，如Oracle、PostgreSQL、MySQL等。工作原理：通过计算不同执行计划的代价（如CPU、I/O等资源消耗），选择最低代价的执行计划。代表数据库：Oracle、PostgreSQL、MySQL。特点：CBO使用统计信息（如表大小、索引分布）来评估查询的代价。2.RBO（R
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
PCIe进阶之TL：Common Packet Header Fields & TLPs with Data Payloads Rules 芯芯之火，可以燎原 PCIe进阶 PCIe进阶硬件工程信息与通信
1TransactionLayerProtocol-PacketDefinitionTLP有四种事务类型：Memory、I/O、Configuration和Messages，两种地址格式：32bit和64bit。构成TLP时，所有标记为Reserved的字段（有时缩写为R）都必须全为0。接收者Rx必须忽略此字段中的值，PCIeSwitch必须对其进行原封不动的转发。请注意，对于某些字段，既有指定值
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
FlexibleBI系统是现代制造企业提升生产质量和效率的重要工具三坐标CMM质量数据系统制造
SPC（统计过程控制）系统是现代制造企业提升生产质量和效率的重要工具。我们的SPC系统通过一键生成全面的SPC分析报告，帮助企业快速、精准地完成质量分析，并大大减少了手动处理数据的复杂性。FlexibleBI实时更新的控制图在生产过程中，控制图可以实时自动更新，确保企业能够随时掌握生产状态，及时发现并处理潜在问题。系统支持多种标准SPC控制图，如X-bar、R、P等图表，全面覆盖所有常见生产场景。
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
node初奶瓶SAMA
www.nodejs.org下载nodejs的安装文件,然后就直接下一步，下一步，下一步傻瓜式安装（打开命令符widow+r输入cmd）node-v查单当前node的版本号安装nodejs时，会自动安装npm包管理工具npm-v查看npm的版本可以直接在黑窗口中输入node然后点击回车以后，就可以输入javascripnt的代码了既然在浏览器鼠标右键中console和在黑窗口中输入node点击回车
ros2中使用launch.xml启动时，怎么在命令行里设置参数，或者加载参数文件（params.yaml） code . Autoware 自动驾驶 ROS2 xml Ros2 自动驾驶机器人
在ROS2中使用launch.xml启动时，可以通过命令行设置参数或加载参数文件（如params.yaml）。以下是具体的方法：1.在命令行中设置参数你可以在运行ros2launch命令时直接设置参数，使用key:=value的语法。例如：ros2launchparam_name:=param_value例如，如果你有一个参数background_r，你可以这样设置：ros2launchmy_pa
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
商业预测初识R hongyanwin r语言预测
1.打开帮助文档首页，查阅其中的“IntroductiontoR”helpRhelp2.安装vcd包install.packages("vcd")3.列出此包中可用的函数和数据集ls("package:vcd")/data(package="vcd")4.载入包并阅读数据集Arthritis的描述library("v.d")/?Arthritis5.显示数据集Arthritis的内容查看数据集结构
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
2024上半年软考系统架构设计师-综合知识选择题及答案不对法系统架构
1.操作系统先来先服务调度算法2.操作系统多道程序设计，利用率3.操作系统状态流转错误的，执行态到运行态4.数据库2NF每一个非主属性完全依赖主键5.数据库笛卡尔积m*n6.数据库不属于事务的特点，并发性7.数据库交集表达式R-(R-S)8.数据库反规范化属于逻辑设计9.网络没有加密功能，物理层10.网络二层交换机数据，数据链路层11.知识产权专利法是否属于民法12.知识产权商标不属于，其他几个是
python 判断 ‘NoneType’的方法 cuisidong1997 文本转换 python
的错误时说明需要进行判断，而对‘NoneType’进行判断时直接使用‘isNone’即可，如下：iftextisNone:print('testis’+None)else:print('testisnot’+None)a=re.match(r’主叫号码(.*)客户姓名’,r’2、主叫号码：15558191990;3、客户姓名：韩东远;')print(type(a))ifaisNone:print(
R 数据可视化 —— 韦恩图名本无名
前言对于数据集之间交叠关系的可视化，通常想到的是绘制韦恩图。韦恩图是一种关系型图表，通过图形之间的重叠来反映数据集之间的相交关系。下面，我们来简单介绍一下如何绘制韦恩图韦恩图绘制韦恩图的包有很多，比如gplots包的venn()函数、limma包的vennDiagram()函数、venneuler包的venneuler()函数。但是这些包绘制出来的图像效果都不是很好，所以我们使用比较成熟的包Ven
Mac清倒废纸篓提示“voicetrigger“在使用中 ReddingtonLin Mac Mac
删除Mac下的user以后，清倒废纸篓，提示“voicetrigger”在使用中。解决办法：重启Mac，开机的时候按住Cmd+R进入Recovery模式选择语言-简体中文从工具菜单中启动终端，输入密码。输入csrutildisable命令，即可关闭SIP服务。重启电脑。（正常重启即可，不用按住Cmd+R进入Recovery模式）再尝试清空废纸篓。如果还不行，就尝试用命令行删除。处理好后，再开启SI
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
python做窗口软件界面绑定py程序_PyCharm GUI界面开发和exe文件生成的实现 weixin_39948442
一、安装Python二、安装PyQt5推荐使用pip安装：win+R调出cmd命令窗口pipinstallPyQt5等待片刻，继续安装PyQt5-toolspipinstallPyQt5-tools如果直接pip不成功的话，建议在python库这个网站上搜索相关库，下载相应的.whl文件，然后用以下方法进行安装：①pipwhl文件所在路径whl文件名②在cmd命令窗口先执行cdwhl文件所在路径到
02 Java-Lambda-Java 8 自带的函数接口王小杰at2019
Java8自带的函数接口我们使用lambda在处理自己定义的业务时，需要自定义函数式接口，其实java8已经内置了常用的接口，这样我们在用的时候不要需要自己定义接口，根据需要选择符合自己业务逻辑的接口接口|输入参数|返回值类型|说明---|---|---|---|---Predicate|T|boolean|断言Consumer|T|/|消费一个数据|Function|T|R|输入一个T输出一个R
10.web应用体系以及windows网络常见操作应用 XXX-17 软件测试软件测试
一、Dos命令1.启动方式：win+R，输入cmd2.切换盘符/路径：盘符名称+：（C:)cd目录（cdB111）（目录名按table键自动补全）3.查看目录：dirdir/p分页展示目录及文件dir/b展示文件名称4.创建文件夹：md文件夹名（mdt1)5.删除文件夹：rd文件夹名（rdt1）删除文件：del文件名（del222.txt）6.复制文件：copy复制文件目标路径（copymaste
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe